由於漫遊器淹沒我的網站,我的CPU使用率突然超過了400%,所以我創建了一個robots.txt,並將其放在我的根目錄下,例如「www.example .com /「:BingBot&BaiduSpider不尊重robots.txt
User-agent: *
Disallow:/
現在谷歌尊重這個文件,並且在我的Google日誌文件中沒有更多的發生。 然而BingBot &百度蜘蛛仍然顯示在我的日誌(和豐富)。
因爲我的CPU使用率大幅增加&也帶寬和我的託管服務提供商即將暫停我的帳戶,我首先刪除了所有的頁面(如果有一個討厭的腳本),上傳乾淨的頁面,阻止所有機器人通過.htaccess中的IP地址&然後創建該robots.txt文件。
我到處搜索,以確認我做了正確的步驟(還沒有嘗試使用.htaccess中的「ReWrite」選項)。
任何人都可以證實我所做的工作應該做的嗎? (自從我開始這個項目以來,我的CPU使用率在6天內下降到120%,但至少阻止IP地址應該會將CPU使用率降低到我通常的5-10%)。
可悲的是,robots.txt是一個「君子協定」,如果你有機會到防火牆,那麼你可以完全阻止他們,其他人也有同樣的問題,您有:HTTP:/ /www.webmasterworld.com/search_engine_spiders/4348357.htm(IP地址禁止在此鏈接) – 2012-07-10 23:47:05
嗨Harald,感謝您的鏈接。通過IP地址直接阻止它們。猜猜這就是爲什麼他們沒有閱讀我的robots.txt和meta標籤(我改變了)。 Cpu使用率下降到51%,所以現在我讓幾個IP地址通過,以便他們可以閱讀robots.txt規則和元標記規則,並會看到它如何去。再次感謝,理查德 – Richard 2012-07-15 02:49:41