您在這裡

有沒有什麼模組可以擋住crawlers與spiders

各位好：

TKY最近實在受夠了每天都在日誌中看到訪客「找不到網頁」的訊息，淹沒了其他訊息。

裝了user agents模組看看到底每天有多少網路爬蟲到站上「訪問」，發現user agents無法正確顯示到底誰是爬蟲、誰是訪客。不過統計有60%的訪問量為Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)，20%的訪問量為Baiduspider+(+http://www.baidu.com/search/spider.htm)。真他X的煩。

中國Drupal有人提供了一個方法可以阻擋這些「攻擊」或無意義的訪問。見：
http://www.drupalchina.org/%7Edrupalcn/node/1724
或者
http://66.246.170.32/drupalchina/node/1724

不過似乎需要本身能夠設定伺服器才能實現。TKY恐怕是做不到了。

想問大家，有沒有可以阻擋網路爬蟲的機制或者模組可用，讓日誌乾淨一點、流量正常一點。（前陣子居然看到一個Drupal畫面跟TKY說網站流量太大、無法連接到資料庫！雖然只有十多分鐘，但也嚇傻了）

TKY

模組/Modules

crawlers

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

針對搜尋引擎，可以用 robots.txt 去擋。
或者可加上 bad behavior 試試。

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

謝謝charlesc。
TKY裝好了你說的兩個套件，不過都不是很清楚功能如何。
首先是bad behavior。雖然有po檔，可以知道大概在設定什麼，不過不是很清楚實際上到底怎麼運作。看說明好像是在擋spam而非擋爬蟲的。
（爛訪客log訊息沒有因此停過）

robots.txt裝了之後，在設定的地方多了一個robots的連結，進去看到一個文字框，內容要自己填的樣子。照指示上網看了半天的說明，有看卻沒有懂。填些什麼才不會不小心檔掉一般使用者啊？

TKY猜說是不是要把日誌中bad behavior記錄的Agent，寫到robots.txt擋住它啊？

另外，有時候瀏覽官網或中國Drupal時，在搜尋時常常會看到「認證失敗」的訊息，是不是跟這些模組有關呢？如果是這樣，那還挺麻煩的。

最後，如果擋住了所有網路爬蟲，那是不是表示以後用google搜尋就比較搜不到這個站了。
tky

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

上中國Drupal用robots.txt搜尋了一下，發現已經有手冊了。
http://www.drupalchina.org/node/1261

設定方面，「User-agent: *」是指擋住所有的瀏覽器這樣，是吧？那一般使用者會不會也被擋住呢？

若是如此，disallow的部分是不是得小心設定，才不會擋到一般人？

tky

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

bad behavior 的確是以 anti-spam 為主，需要去安裝他的php程式才會起作用。

robots.txt 只會擋搜尋引擎，如果全設了，基本上就是找不到了！可以看一下 Google 對於這檔案用途的說明：
http://www.google.com/support/webmasters/bin/answer.py?answer=40360

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

如果是google，建議使用他的服務
http://www.google.com/webmasters/sitemaps
這樣你只要提供sitemap它就不會一直亂抓
至少這樣google就不會像是百度一直亂抓，抓到鎖ip才能清淨一些

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

慘了，tky居然被拒於自家門外！
老天啊，一直看到看到禁止進入的畫面，借用朋友的電腦才能進管理畫面。真是狼狽。
一急之下，把bad behavior給刪掉了。刪掉後，就可以進去了。
真見鬼了，不曉得這麼有效說，有效到管理者自己都被當在外面！XD

tky正試著用f1207bill建議的sitemap，回頭一開網站就被擋了。
用朋友的電腦看log，bb居然把tky認作了spamer，說甚麼都不給進。當場撞牆、血濺五步.......。真不知道是怎麼搞的。難道是因為tky上傳了一個檔案就被當作不良使用者嗎？

關於bad behavior和robots.txt真讓tky吃足了苦頭。不過就robots.txt來說，還算是挺有用的，設定sitemap的時候可以看到GOOGLE有吃到這個檔案。雖然它好像不會理會延遲時間。

問一下兩位，robots.txt中的user agent是不是最好不要設為＊，而只要設定要擋的爬蟲名稱就好？tky向google提交了sitemap，應該就不必擋它了吧？只要擋百度就好，對嗎？

差點不得其門而入的
tky

發表回應前，請先登入或註冊

Re: 有沒有什麼模組可以擋住crawlers與spiders

原則上百度幾乎不會遵守robots.txt
而google它會優先抓取sitemap
robots.txt我只有擋百度

發表回應前，請先登入或註冊