各位好:
TKY最近實在受夠了每天都在日誌中看到訪客「找不到網頁」的訊息,淹沒了其他訊息。
裝了user agents模組看看到底每天有多少網路爬蟲到站上「訪問」,發現user agents無法正確顯示到底誰是爬蟲、誰是訪客。不過統計有60%的訪問量為Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html),20%的訪問量為Baiduspider+(+http://www.baidu.com/search/spider.htm)。真他X的煩。
中國Drupal有人提供了一個方法可以阻擋這些「攻擊」或無意義的訪問。見:
http://www.drupalchina.org/%7Edrupalcn/node/1724
或者
http://66.246.170.32/drupalchina/node/1724
不過似乎需要本身能夠設定伺服器才能實現。TKY恐怕是做不到了。
想問大家,有沒有可以阻擋網路爬蟲的機制或者模組可用,讓日誌乾淨一點、流量正常一點。(前陣子居然看到一個Drupal畫面跟TKY說網站流量太大、無法連接到資料庫!雖然只有十多分鐘,但也嚇傻了)
TKY
Re: 有沒有什麼模組可以擋住crawlers與spiders
針對搜尋引擎,可以用 robots.txt 去擋。
或者可加上 bad behavior 試試。
Re: 有沒有什麼模組可以擋住crawlers與spiders
謝謝charlesc。
TKY裝好了你說的兩個套件,不過都不是很清楚功能如何。
首先是bad behavior。雖然有po檔,可以知道大概在設定什麼,不過不是很清楚實際上到底怎麼運作。看說明好像是在擋spam而非擋爬蟲的。
(爛訪客log訊息沒有因此停過)
robots.txt裝了之後,在設定的地方多了一個robots的連結,進去看到一個文字框,內容要自己填的樣子。照指示上網看了半天的說明,有看卻沒有懂。填些什麼才不會不小心檔掉一般使用者啊?
TKY猜說是不是要把日誌中bad behavior記錄的Agent,寫到robots.txt擋住它啊?
另外,有時候瀏覽官網或中國Drupal時,在搜尋時常常會看到「認證失敗」的訊息,是不是跟這些模組有關呢?如果是這樣,那還挺麻煩的。
最後,如果擋住了所有網路爬蟲,那是不是表示以後用google搜尋就比較搜不到這個站了。
tky
Re: 有沒有什麼模組可以擋住crawlers與spiders
上中國Drupal用robots.txt搜尋了一下,發現已經有手冊了。
http://www.drupalchina.org/node/1261
設定方面,「User-agent: *」是指擋住所有的瀏覽器這樣,是吧?那一般使用者會不會也被擋住呢?
若是如此,disallow的部分是不是得小心設定,才不會擋到一般人?
tky
Re: 有沒有什麼模組可以擋住crawlers與spiders
bad behavior 的確是以 anti-spam 為主,需要去安裝他的php程式才會起作用。
robots.txt 只會擋搜尋引擎,如果全設了,基本上就是找不到了!可以看一下 Google 對於這檔案用途的說明:
http://www.google.com/support/webmasters/bin/answer.py?answer=40360
Re: 有沒有什麼模組可以擋住crawlers與spiders
如果是google,建議使用他的服務
http://www.google.com/webmasters/sitemaps
這樣你只要提供sitemap它就不會一直亂抓
至少這樣google就不會像是百度一直亂抓,抓到鎖ip才能清淨一些
Re: 有沒有什麼模組可以擋住crawlers與spiders
慘了,tky居然被拒於自家門外!
老天啊,一直看到看到禁止進入的畫面,借用朋友的電腦才能進管理畫面。真是狼狽。
一急之下,把bad behavior給刪掉了。刪掉後,就可以進去了。
真見鬼了,不曉得這麼有效說,有效到管理者自己都被當在外面!XD
tky正試著用f1207bill建議的sitemap,回頭一開網站就被擋了。
用朋友的電腦看log,bb居然把tky認作了spamer,說甚麼都不給進。當場撞牆、血濺五步.......。真不知道是怎麼搞的。難道是因為tky上傳了一個檔案就被當作不良使用者嗎?
關於bad behavior和robots.txt真讓tky吃足了苦頭。不過就robots.txt來說,還算是挺有用的,設定sitemap的時候可以看到GOOGLE有吃到這個檔案。雖然它好像不會理會延遲時間。
問一下兩位,robots.txt中的user agent是不是最好不要設為*,而只要設定要擋的爬蟲名稱就好?tky向google提交了sitemap,應該就不必擋它了吧?只要擋百度就好,對嗎?
差點不得其門而入的
tky
Re: 有沒有什麼模組可以擋住crawlers與spiders
原則上百度幾乎不會遵守robots.txt
而google它會優先抓取sitemap
robots.txt我只有擋百度