robots.txt - 排除任何包含「/ node /」的URL

如何讓爬蟲/機器人不索引任何具有/ node/pattern的URL？以下是自第一天起，但我注意到，Google仍然索引了很多其中包含 /node /的網址，例如， www.mywebsite.com/node/123/32robots.txt - 排除任何包含「/ node /」的URL

不允許：/節點/

有什麼事情不索引有/節點的任何URL州/ 我應該寫類似如下：不允許：/節點/ *

更新：真正的問題是，儘管：不允許：/節點/ robots.txt中，谷歌已經收錄此網址如下頁www.mywebsite.com/node/123/32

/node /不是一個物理目錄，這是drupal 6如何顯示它的內容，我想這是我的問題，節點不是目錄，只是URL的一部分由drupal爲內容生成，我該如何處理？這會工作嗎？

不允許：/ *節點

感謝

來源

2012-04-13 practitioner

Disallow: /node/*正是你想做的事。搜索引擎支持robots.txt表示法中的通配符，*字符表示「任何字符」。有關更多信息，請參見Google's notes on robots.txt。

更新

的另一種方式，以確保搜索引擎留出一個目錄，而它下面的所有目錄，與機器人的HTTP標頭以阻止他們。這可以通過在你的node目錄放置在以下一個htaccess文件來完成：

Header set x-robots-tag: noindex

來源

2012-04-13 11:44:40

Google關於robots.txt的注意事項如下：要阻止目錄及其中的所有內容，請使用正斜槓跟隨目錄名稱。不允許：/垃圾目錄/ 這並不是說：不允許：/垃圾目錄/ * 所以如果我已經寫正確的指令不允許：/節點/ 那麼爲什麼我裏面的網頁建立索引？例如www.mywebsite.com/node/123/32 – practitioner 2012-04-13 11:53:24

您是在索引頁面之前還是之後添加了robots.txt文件？ Robots.txt不時因不明原因而被搜索引擎所尊重。我更新了我的答案，以包含一個非常好的替代方法。 – 2012-04-13 13:03:20

我已更新我的問題，請再次檢查 – practitioner 2012-04-13 15:13:06

Disallow: /node/將禁止與/node/開始（主機）之後的任何URL。星號不是必需的。

因此，它會阻止www.mysite.com/node/bar.html，但不會阻止www.mysite.com/foo/node/bar.html。

如果你想阻止任何包含/node/，你必須寫Disallow: */node/

還要注意Googlebot可緩存的robots.txt長達7天。因此，如果您今天對robots.txt進行了更改，那麼Googlebot可能會在更新其robots.txt副本之前一週。在此期間，它將使用其緩存副本。

來源

2012-04-13 15:48:27

謝謝，不幸的是，以下測試人員給出了此語法的錯誤消息：http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php 它說它必須以/開頭而不是* 我不確定這個工具有多正確？請指導 – practitioner 2012-04-13 16:26:51

然後你可以嘗試兩行不同的代碼：''''''對於以'/ node /'開頭的東西'Disallow：/ node /'，對於'/ node /'嵌入某處的東西'Disallow：/ */node /'否則在路徑中。 – 2012-04-13 18:09:55

怎麼樣：不允許：/節點/ 和禁止：/節點/ * 後面是否意味着什麼和一切裏面/節點/？ – practitioner 2012-04-14 07:17:22

你的原始Disallow很好。 Jim Mischel的評論似乎很流行，並且會讓我懷疑Googlebot是否需要花時間來獲取更新後的robots.txt，然後取消相關頁面的索引。

一對夫婦更多的想法：

你的網頁網址可能會出現在谷歌的搜索結果，即使你您在robots.txt中包含它。請參閱：http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449（「...雖然Google不會抓取或索引由robots.txt阻止的網頁內容，但如果我們在網絡上的其他網頁上找到這些網址，我們仍可能會將這些網址編入索引。」）。對很多人來說，這是違反直覺的。其次，我強烈建議您在Google網站管理員工具（https://www.google.com/webmasters/tools/home?hl=en）中驗證您網站的所有權，然後使用健康工具 - >「Google抓取方式」查看與檢索您的網頁相關的實時診斷信息。（這是否表明robots.txt阻止爬行？）

我還沒有使用它，但Bing有一個類似的工具：http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。使用Google，Bing等提供的診斷工具在網站上執行實時診斷似乎非常值得。

這個問題有點老，所以我希望你已經解決了原來的問題。

來源

2013-02-01 21:15:50 gcbound

robots.txt - 排除任何包含「/ node /」的URL

回答

相關問題