BingBot＆BaiduSpider不尊重robots.txt

由於漫遊器淹沒我的網站，我的CPU使用率突然超過了400％，所以我創建了一個robots.txt，並將其放在我的根目錄下，例如「www.example .com /「：BingBot＆BaiduSpider不尊重robots.txt

User-agent: * 
Disallow:/

現在谷歌尊重這個文件，並且在我的Google日誌文件中沒有更多的發生。然而BingBot &百度蜘蛛仍然顯示在我的日誌（和豐富）。

因爲我的CPU使用率大幅增加&也帶寬和我的託管服務提供商即將暫停我的帳戶，我首先刪除了所有的頁面（如果有一個討厭的腳本），上傳乾淨的頁面，阻止所有機器人通過.htaccess中的IP地址&然後創建該robots.txt文件。

我到處搜索，以確認我做了正確的步驟（還沒有嘗試使用.htaccess中的「ReWrite」選項）。

任何人都可以證實我所做的工作應該做的嗎？（自從我開始這個項目以來，我的CPU使用率在6天內下降到120％，但至少阻止IP地址應該會將CPU使用率降低到我通常的5-10％）。

來源

2012-07-10 Richard

可悲的是，robots.txt是一個「君子協定」，如果你有機會到防火牆，那麼你可以完全阻止他們，其他人也有同樣的問題，您有：HTTP：/ /www.webmasterworld.com/search_engine_spiders/4348357.htm（IP地址禁止在此鏈接） – 2012-07-10 23:47:05

嗨Harald，感謝您的鏈接。通過IP地址直接阻止它們。猜猜這就是爲什麼他們沒有閱讀我的robots.txt和meta標籤（我改變了）。 Cpu使用率下降到51％，所以現在我讓幾個IP地址通過，以便他們可以閱讀robots.txt規則和元標記規則，並會看到它如何去。再次感謝，理查德 – Richard 2012-07-15 02:49:41

如果這些是來自Bingbot和Baiduspider的合法蜘蛛，那麼它們都應該遵守給定的robots.txt文件。但是，如果這些文件先前已被編入索引，則可能需要一些時間才能開始採取行動 - 這可能就是這種情況。

它不適用於這種情況，但應該指出的是，Baiduspider對robots.txt標準的解釋在某些方面與其他主流機器人（即Googlebot）稍有不同。例如，儘管標準將Disallow:記錄中的URL路徑簡單地定義爲前綴，但Baiduspider只會匹配整個目錄/路徑名稱。如果Googlebot在提供指令Disallow: /priv時與URL http://example.com/private/匹配，則Baiduspider不會。

參考：
http://www.baidu.com/search/robots_english.html

來源

2014-04-01 11:16:16 MrWhite

感謝您的信息 – Richard 2014-04-03 20:19:33

嗨，謝謝你信息...但鏈接現在被打破。有誰知道那裏轉到了哪裏？ – rosuav 2015-08-17 04:20:50

@rosuav我已經更新了鏈接（這是否是_exactly_我不確定的相同頁面？）。然而，這些例子並不完全清楚 - 就矛盾而言。在'Disallow'指令下面，它聲明''Disallow：/ help'不允許...'/ helpabc.html'「，但是在下面的例子表中，它暗示'Disallow：/ tmp'不會禁止'/tmphoho'！他們也給出了相同的例子兩次（'不允許：/ tmp'和URL'/ tmp'），一個匹配，另一個不匹配！？（這真的沒有意義，所以也許在翻譯中丟失了一些東西！？） – MrWhite 2015-08-17 07:37:10

BingBot＆BaiduSpider不尊重robots.txt

回答

相關問題