2012-07-10 33 views
5

由於漫遊器淹沒我的網站,我的CPU使用率突然超過了400%,所以我創建了一個robots.txt,並將其放在我的根目錄下,例如「www.example .com /「:BingBot&BaiduSpider不尊重robots.txt

User-agent: * 
Disallow:/

現在谷歌尊重這個文件,並且在我的Google日誌文件中沒有更多的發生。 然而BingBot &百度蜘蛛仍然顯示在我的日誌(和豐富)。

因爲我的CPU使用率大幅增加&也帶寬和我的託管服務提供商即將暫停我的帳戶,我首先刪除了所有的頁面(如果有一個討厭的腳本),上傳乾淨的頁面,阻止所有機器人通過.htaccess中的IP地址&然後創建該robots.txt文件。

我到處搜索,以確認我做了正確的步驟(還沒有嘗試使用.htaccess中的「ReWrite」選項)。

任何人都可以證實我所做的工作應該做的嗎? (自從我開始這個項目以來,我的CPU使用率在6天內下降到120%,但至少阻止IP地址應該會將CPU使用率降低到我通常的5-10%)。

+1

可悲的是,robots.txt是一個「君子協定」,如果你有機會到防火牆,那麼你可以完全阻止他們,其他人也有同樣的問題,您有:HTTP:/ /www.webmasterworld.com/search_engine_spiders/4348357.htm(IP地址禁止在此鏈接) – 2012-07-10 23:47:05

+0

嗨Harald,感謝您的鏈接。通過IP地址直接阻止它們。猜猜這就是爲什麼他們沒有閱讀我的robots.txt和meta標籤(我改變了)。 Cpu使用率下降到51%,所以現在我讓幾個IP地址通過,以便他們可以閱讀robots.txt規則和元標記規則,並會看到它如何去。再次感謝,理查德 – Richard 2012-07-15 02:49:41

回答

2

如果這些是來自Bingbot和Baiduspider的合法蜘蛛,那麼它們都應該遵守給定的robots.txt文件。但是,如果這些文件先前已被編入索引,則可能需要一些時間才能開始採取行動 - 這可能就是這種情況。

它不適用於這種情況,但應該指出的是,Baiduspider對robots.txt標準的解釋在某些方面與其他主流機器人(即Googlebot)稍有不同。例如,儘管標準將Disallow:記錄中的URL路徑簡單地定義爲前綴,但Baiduspider只會匹配整個目錄/路徑名稱。如果Googlebot在提供指令Disallow: /priv時與URL http://example.com/private/匹配,則Baiduspider不會。

參考:
http://www.baidu.com/search/robots_english.html

+0

感謝您的信息 – Richard 2014-04-03 20:19:33

+0

嗨,謝謝你信息...但鏈接現在被打破。有誰知道那裏轉到了哪裏? – rosuav 2015-08-17 04:20:50

+0

@rosuav我已經更新了鏈接(這是否是_exactly_我​​不確定的相同頁面?)。然而,這些例子並不完全清楚 - 就矛盾而言。在'Disallow'指令下面,它聲明''Disallow:/ help'不允許...'/ helpabc.html'「,但是在下面的例子表中,它暗示'Disallow:/ tmp'不會禁止'/tmphoho'!他們也給出了相同的例子兩次('不允許:/ tmp'和URL'/ tmp'),一個匹配,另一個不匹配!? (這真的沒有意義,所以也許在翻譯中丟失了一些東西!?) – MrWhite 2015-08-17 07:37:10