您在這裡

關於本站的 robots.txt

dennys's 的頭像
dennys 在 2007-10-26 (週五) 00:20 發表

剛看了一下 https://drupaltaiwan.org/robots.txt , 如下, 全部都擋掉了.
User-agent: *
Disallow: /

是否考慮開放 Google 呢? 或者是說, 如果不開放的話, 像百度之類不理會 robots 的可能就得直接從 firewall 擋了.
剛用百度查了一下, 還真的查得到.

建議一下, feed$ 可以擋掉, 不然基本上每篇至少都會有一篇重複的內容.

其他我覺得就見仁見智了, 像我是把 edit, revision, forward, tracker, export html 都擋掉了, 目的是希望盡量每篇文章只讓 search engine 找到一次就好.

然後我也有裝 Global Redirect, 把有 alias 的 node 的文章都統一指到一樣的 url, 像本站應該是有用 pathauto, 也可以考慮一下.

最後就是, 我把 /?q= 也擋了, 其實我後來在想, 應該統統擋掉, 然後開 node, book, forum 就夠了 ^^

該是個不錯的建議
重複的文章對搜尋引擎的index會有效果上的打折
動態網站本來就應該擋掉一些不需要index的個人資訊頁面的

--
from open mind to open source~

--
from open mind to open source~

所謂的【應該統統擋掉, 然後開 node, book, forum 就夠了】,是不是這樣呢?

User-agent: *
Disallow: /
Allow: /node
Allow: /book
Allow: /forum

這麼簡潔可以嗎? 沒有用 pathauto 的話,這樣就可以了是嗎? 實在是太帥了。。。。 ^_^

原來如此。 ^_^

另外,我正好試了一下,
發現只要用了 Disallow: /
不管後面怎麼 Allow,
Google 都會認為網站在擋它(我們當然不希望他這麼認為)。
然後呢,它好像就不來爬網站了耶。。。
這好像跟我們這樣設、本來的用意不大相符。
我提交sitemap.xml, 他也不領情的樣子。

總之,似乎還是拿掉 Disallow: /,
再乖乖一個一個 Disallow 掉不想讓人爬的目錄,
這樣還是比較妥當的樣子。。。