這個Robots.txt文件是否正確？

我的服務器上最近出現了很多CPU峯值，不知何故，我認爲這不是真正的流量，或者它的某些部分不是真實的。所以我現在只想讓谷歌機器人，MSN和雅虎。如果以下robots.txt文件對我的要求是正確的，請指導我。這個Robots.txt文件是否正確？

 
User-agent: Googlebot 
User-agent: Slurp 
User-agent: msnbot 
User-agent: Mediapartners-Google* 
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler 
Disallow: 

User-agent: * 
Disallow:/

謝謝。

來源

2012-04-17 Junaid Ali

檢查你的服務器日誌 – SLaks 2012-04-17 20:15:57

，首先Disallow:也許應該是：

Allow:/

如果你想，其實，讓所有用戶代理索引你的網站

。

來源

2012-04-17 20:19:44

實際上，該標準允許一個空白的'不允許：'。請參閱http://www.robotstxt.org/robotstxt.html上的示例。同樣，http://www.robotstxt.org/orig.html – 2012-04-17 21:09:14

「允許」的原始規範甚至不是原始的robots.txt規範的一部分（但許多解析器，包括谷歌的支持它）。 – unor 2014-02-17 13:12:06

您的robots.txt似乎有效。

這是allowed to have several User-agent lines的記錄。
Disallow:允許抓取所有內容。
以User-agent: *開頭的記錄僅適用於未與上一條記錄匹配的機器人。
Disallow: /禁止爬行任何東西。

但是請注意：只有漂亮的機器人遵循robots.txt中的規則 - 並且很可能是好的機器人不會過度使用常見的爬行頻率。因此，無論你需要處理你的表現，還是不要這麼好的機器人都應該受到指責。

來源

2014-02-17 13:18:14 unor

這個Robots.txt文件是否正確？

回答

相關問題