您在這裡

有沒有什麼模組可以擋住crawlers與spiders

tky's 的頭像
tky 在 2007-02-10 (週六) 20:18 發表

各位好:

TKY最近實在受夠了每天都在日誌中看到訪客「找不到網頁」的訊息,淹沒了其他訊息。

裝了user agents模組看看到底每天有多少網路爬蟲到站上「訪問」,發現user agents無法正確顯示到底誰是爬蟲、誰是訪客。不過統計有60%的訪問量為Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html),20%的訪問量為Baiduspider+(+http://www.baidu.com/search/spider.htm)。真他X的煩。

中國Drupal有人提供了一個方法可以阻擋這些「攻擊」或無意義的訪問。見:
http://www.drupalchina.org/%7Edrupalcn/node/1724
或者
http://66.246.170.32/drupalchina/node/1724

不過似乎需要本身能夠設定伺服器才能實現。TKY恐怕是做不到了。

想問大家,有沒有可以阻擋網路爬蟲的機制或者模組可用,讓日誌乾淨一點、流量正常一點。(前陣子居然看到一個Drupal畫面跟TKY說網站流量太大、無法連接到資料庫!雖然只有十多分鐘,但也嚇傻了)

TKY

謝謝charlesc。
TKY裝好了你說的兩個套件,不過都不是很清楚功能如何。
首先是bad behavior。雖然有po檔,可以知道大概在設定什麼,不過不是很清楚實際上到底怎麼運作。看說明好像是在擋spam而非擋爬蟲的。
(爛訪客log訊息沒有因此停過)

robots.txt裝了之後,在設定的地方多了一個robots的連結,進去看到一個文字框,內容要自己填的樣子。照指示上網看了半天的說明,有看卻沒有懂。填些什麼才不會不小心檔掉一般使用者啊?

TKY猜說是不是要把日誌中bad behavior記錄的Agent,寫到robots.txt擋住它啊?

另外,有時候瀏覽官網或中國Drupal時,在搜尋時常常會看到「認證失敗」的訊息,是不是跟這些模組有關呢?如果是這樣,那還挺麻煩的。

最後,如果擋住了所有網路爬蟲,那是不是表示以後用google搜尋就比較搜不到這個站了。
tky

tky

慘了,tky居然被拒於自家門外!
老天啊,一直看到看到禁止進入的畫面,借用朋友的電腦才能進管理畫面。真是狼狽。
一急之下,把bad behavior給刪掉了。刪掉後,就可以進去了。
真見鬼了,不曉得這麼有效說,有效到管理者自己都被當在外面!XD

tky正試著用f1207bill建議的sitemap,回頭一開網站就被擋了。
用朋友的電腦看log,bb居然把tky認作了spamer,說甚麼都不給進。當場撞牆、血濺五步.......。真不知道是怎麼搞的。難道是因為tky上傳了一個檔案就被當作不良使用者嗎?

關於bad behavior和robots.txt真讓tky吃足了苦頭。不過就robots.txt來說,還算是挺有用的,設定sitemap的時候可以看到GOOGLE有吃到這個檔案。雖然它好像不會理會延遲時間。

問一下兩位,robots.txt中的user agent是不是最好不要設為*,而只要設定要擋的爬蟲名稱就好?tky向google提交了sitemap,應該就不必擋它了吧?只要擋百度就好,對嗎?

差點不得其門而入的
tky

tky