2012-04-13 21 views
3

如何讓爬蟲/機器人不索引任何具有/ node/pattern的URL? 以下是自第一天起,但我注意到,Google仍然索引了很多其中包含 /node /的網址,例如, www.mywebsite.com/node/123/32robots.txt - 排除任何包含「/ node /」的URL

不允許:/節點/

有什麼事情不索引有/節點的任何URL州/ 我應該寫類似如下: 不允許:/節點/ *

更新: 真正的問題是,儘管: 不允許:/節點/ robots.txt中,谷歌已經收錄此網址如下頁www.mywebsite.com/node/123/32

/node /不是一個物理目錄,這是drupal 6如何顯示它的內容,我想這是我的問題,節點不是目錄,只是URL的一部分由drupal爲內容生成,我該如何處理?這會工作嗎?

不允許:/ *節點

感謝

回答

0

Disallow: /node/*正是你想做的事。搜索引擎支持robots.txt表示法中的通配符,*字符表示「任何字符」。有關更多信息,請參見Google's notes on robots.txt

更新

的另一種方式,以確保搜索引擎留出一個目錄,而它下面的所有目錄,與機器人的HTTP標頭以阻止他們。這可以通過在你的node目錄放置在以下一個htaccess文件來完成:

Header set x-robots-tag: noindex 
+0

Google關於robots.txt的注意事項如下: 要阻止目錄及其中的所有內容,請使用正斜槓跟隨目錄名稱。 不允許:/垃圾目錄/ 這並不是說: 不允許:/垃圾目錄/ * 所以如果我已經寫正確的指令 不允許:/節點/ 那麼爲什麼我裏面的網頁建立索引?例如www.mywebsite.com/node/123/32 – practitioner 2012-04-13 11:53:24

+0

您是在索引頁面之前還是之後添加了robots.txt文件? Robots.txt不時因不明原因而被搜索引擎所尊重。我更新了我的答案,以包含一個非常好的替代方法。 – 2012-04-13 13:03:20

+0

我已更新我的問題,請再次檢查 – practitioner 2012-04-13 15:13:06

5

Disallow: /node/將禁止與/node/開始(主機)之後的任何URL。星號不是必需的。

因此,它會阻止www.mysite.com/node/bar.html,但不會阻止www.mysite.com/foo/node/bar.html。

如果你想阻止任何包含/node/,你必須寫Disallow: */node/

還要注意Googlebot可緩存的robots.txt長達7天。因此,如果您今天對robots.txt進行了更改,那麼Googlebot可能會在更新其robots.txt副本之前一週。在此期間,它將使用其緩存副本。

+0

謝謝,不幸的是,以下測試人員給出了此語法的錯誤消息:http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php 它說它必須以/開頭而不是* 我不確定這個工具有多正確?請指導 – practitioner 2012-04-13 16:26:51

+0

然後你可以嘗試兩行不同的代碼:''''''對於以'/ node /'開頭的東西'Disallow:/ node /',對於'/ node /'嵌入某處的東西'Disallow:/ */node /'否則在路徑中。 – 2012-04-13 18:09:55

+0

怎麼樣: 不允許:/節點/ 和 禁止:/節點/ * 後面是否意味着什麼和一切裏面/節點/? – practitioner 2012-04-14 07:17:22

0

你的原始Disallow很好。 Jim Mischel的評論似乎很流行,並且會讓我懷疑Googlebot是否需要花時間來獲取更新後的robots.txt,然後取消相關頁面的索引。

一對夫婦更多的想法:

你的網頁網址可能會出現在谷歌的搜索結果,即使你您在robots.txt中包含它。請參閱:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449(「...雖然Google不會抓取或索引由robots.txt阻止的網頁內容,但如果我們在網絡上的其他網頁上找到這些網址,我們仍可能會將這些網址編入索引。」)。對很多人來說,這是違反直覺的。其次,我強烈建議您在Google網站管理員工具(https://www.google.com/webmasters/tools/home?hl=en)中驗證您網站的所有權,然後使用健康工具 - >「Google抓取方式」查看與檢索您的網頁相關的實時診斷信息。 (這是否表明robots.txt阻止爬行?)

我還沒有使用它,但Bing有一個類似的工具:http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。使用Google,Bing等提供的診斷工具在網站上執行實時診斷似乎非常值得。

這個問題有點老,所以我希望你已經解決了原來的問題。