如果搜索引擎蜘蛛正在敲擊我的網站，我該怎麼辦？

我運行一個小型的網絡服務器，最近它被搜索引擎蜘蛛弄成奶油。冷卻它的正確方法是什麼？我應該定期發送5xx回覆嗎？有沒有我應該使用的robots.txt設置？或者是其他東西？如果搜索引擎蜘蛛正在敲擊我的網站，我該怎麼辦？

2009-01-22 mike

假設蜘蛛是還跟尊重的robots.txt，你可以從下面的訪問您的網站限制它：

User-agent: * 
Disallow:/

這將影響到所有的蜘蛛。通過爲蜘蛛指定正確的用戶代理縮小它的範圍。

如果抓取工具不尊重您的robots.txt，您可能希望通過阻止其在防火牆中的IP來限制其訪問您的網站。

編輯：你可以閱讀更多關於robots.txt here。

2009-01-22 23:54:43

Robots.txt應該是您的第一個通話端口。搜索機器人應該記下這些設置並停止觸擊您拒絕訪問的頁面。這是很容易在你的網站具有以下語法的根創建一個文件來完成：

User-agent: * 
Disallow:/

這句法實際上是說：所有的搜索機器人（通配符*），你不準在/索引什麼。更多的信息在robotstxt.org

如果這不起作用，下一步是禁止IP地址，如果可能的話。

2009-01-22 23:55:32

User-agent: * 
Disallow:/

2009-01-22 23:55:56

你也可以建立一個sitemap並註冊站點地圖與有問題的機器人。搜索引擎將使用站點地圖來確定要打的頁面以及頻率。如果你的網站是完全動態的，它可能沒有太大的幫助，但是如果你有很多靜態頁面，這是告訴蜘蛛每天沒有變化的好方法。

2009-01-23 00:08:15 jwmiller5

robots.txt應該是您的第一選擇。但是，如果機器人行爲不當並且您無法控制防火牆，則可以設置.htaccess限制以通過IP禁止它。

2009-01-24 05:27:55

如果它忽略了robots.txt，第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不會有太大用處，因爲現在99％的蜘蛛分佈在一堆服務器上。

2009-01-24 05:45:06 flussence

回答