2012-04-17 53 views
0

我的服務器上最近出現了很多CPU峯值,不知何故,我認爲這不是真正的流量,或者它的某些部分不是真實的。所以我現在只想讓谷歌機器人,MSN和雅虎。如果以下robots.txt文件對我的要求是正確的,請指導我。這個Robots.txt文件是否正確?

 
User-agent: Googlebot 
User-agent: Slurp 
User-agent: msnbot 
User-agent: Mediapartners-Google* 
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler 
Disallow: 

User-agent: * 
Disallow:/

謝謝。

+1

檢查你的服務器日誌 – SLaks 2012-04-17 20:15:57

回答

0

,首先Disallow:也許應該是:

Allow:/
如果你想,其實,讓所有用戶代理索引你的網站

+1

實際上,該標準允許一個空白的'不允許:'。請參閱http://www.robotstxt.org/robotstxt.html上的示例。同樣,http://www.robotstxt.org/orig.html – 2012-04-17 21:09:14

+0

「允許」的原始規範甚至不是原始的robots.txt規範的一部分(但許多解析器,包括谷歌的支持它)。 – unor 2014-02-17 13:12:06

0

您的robots.txt似乎有效。

  • 這是allowed to have several User-agent lines的記錄。
  • Disallow:允許抓取所有內容。
  • User-agent: *開頭的記錄僅適用於未與上一條記錄匹配的機器人。
  • Disallow: /禁止爬行任何東西。

但是請注意:只有漂亮的機器人遵循robots.txt中的規則 - 並且很可能是好的機器人不會過度使用常見的爬行頻率。因此,無論你需要處理你的表現,還是不要這麼好的機器人都應該受到指責。