剛看了一下 https://drupaltaiwan.org/robots.txt , 如下, 全部都擋掉了.
User-agent: *
Disallow: /
是否考慮開放 Google 呢? 或者是說, 如果不開放的話, 像百度之類不理會 robots 的可能就得直接從 firewall 擋了.
剛用百度查了一下, 還真的查得到.
剛看了一下 https://drupaltaiwan.org/robots.txt , 如下, 全部都擋掉了.
User-agent: *
Disallow: /
是否考慮開放 Google 呢? 或者是說, 如果不開放的話, 像百度之類不理會 robots 的可能就得直接從 firewall 擋了.
剛用百度查了一下, 還真的查得到.
Re: 關於本站的 robots.txt
嗯...喵的,怎麼會這樣@@
我在想有可能是某次因為某種原因被主機商改的,我沒改回來,已修正摟。謝謝 dennys!
Re: 關於本站的 robots.txt
建議一下, feed$ 可以擋掉, 不然基本上每篇至少都會有一篇重複的內容.
其他我覺得就見仁見智了, 像我是把 edit, revision, forward, tracker, export html 都擋掉了, 目的是希望盡量每篇文章只讓 search engine 找到一次就好.
然後我也有裝 Global Redirect, 把有 alias 的 node 的文章都統一指到一樣的 url, 像本站應該是有用 pathauto, 也可以考慮一下.
最後就是, 我把 /?q= 也擋了, 其實我後來在想, 應該統統擋掉, 然後開 node, book, forum 就夠了 ^^
Re: 關於本站的 robots.txt
該是個不錯的建議
重複的文章對搜尋引擎的index會有效果上的打折
動態網站本來就應該擋掉一些不需要index的個人資訊頁面的
--
from open mind to open source~
Re: 關於本站的 robots.txt
同意,讚 :)
Re: 關於本站的 robots.txt
插話!嗯!我在討論區發了兩次文章,都沒出現??
是要經過審核嗎?
Re: 關於本站的 robots.txt
真的耶,怪哉,已經改為發表狀態...
不知道是為什麼耶,不可能去審核滴,沒這種時間啊XD
Re: 關於本站的 robots.txt
剛發現是某模組造成的問題,謝謝回報!
Re: 關於本站的 robots.txt
所謂的【應該統統擋掉, 然後開 node, book, forum 就夠了】,是不是這樣呢?
User-agent: *
Disallow: /
Allow: /node
Allow: /book
Allow: /forum
這麼簡潔可以嗎? 沒有用 pathauto 的話,這樣就可以了是嗎? 實在是太帥了。。。。 ^_^
Re: 關於本站的 robots.txt
恐怕不能刪得只剩這麼少耶, 這樣 theme, module 就都不能用了
Re: 關於本站的 robots.txt
應該不會不能用才對。robots.txt 是給 像 google bot 這種 crawler 參考用的,一般瀏覽不會受影響不是嗎。。。
Re: 關於本站的 robots.txt
不好意思, 您說的沒錯, 是不會影響一般 user, 我只是以前在用 http://www.archive.org/ 時發現擋太多, 存檔的畫面會亂掉 (缺 css 等等), 所以後來設定 robots 時都會考慮到. Google 的頁庫存檔也是一樣的, 當然是還好啦
Re: 關於本站的 robots.txt
原來如此。 ^_^
另外,我正好試了一下,
發現只要用了 Disallow: /
不管後面怎麼 Allow,
Google 都會認為網站在擋它(我們當然不希望他這麼認為)。
然後呢,它好像就不來爬網站了耶。。。
這好像跟我們這樣設、本來的用意不大相符。
我提交sitemap.xml, 他也不領情的樣子。
總之,似乎還是拿掉 Disallow: /,
再乖乖一個一個 Disallow 掉不想讓人爬的目錄,
這樣還是比較妥當的樣子。。。