2010-01-29 82 views
5

有沒有辦法強制蜘蛛放慢其蜘蛛網站的爬行速度?任何可以放在標題或robots.txt中的東西?減慢蜘蛛網址

我以爲我記得閱讀關於這是可能的東西,但現在找不到任何東西。

+0

你爲什麼要慢下來? – 2010-01-29 22:12:48

回答

14

如果您指的是Google,則可以通過使用Google網站管理員帳戶(Google Webmaster Tools)來遏制Google在您的網站上搜索您網站的速度。

還有這個,你可以把在爬行延遲被指定爲每個頁面抓取之間的秒數的robots.txt

User-agent: * 
Crawl-delay: 10 

。當然,與robots.txt中的其他內容一樣,爬蟲必須尊重它,所以YMMV。

0

我不認爲機器人會做任何事情,除了允許或禁止。大多數搜索引擎將允許您自定義如何爲您的網站編制索引。

例如:BingGoogle

如果有,是造成問題的特定代理,你可能要麼阻止它具體,或者看看你是否可以對其進行配置。

5

除了使用谷歌網站管理員工具中的Googlebot(見羅伯特·哈維的答案),Yahoo!Bing支持非標準Crawl-delay指令在robots.txt

http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions

當推來推,然而,一個行爲不正常的殭屍程序只會在更高級別上被阻塞(例如負載平衡器,路由器,緩存代理,任何適合您的架構的代理)。

2

有關使用Perl的解決方案,請參閱Throttling your web server。 Randal Schwartz表示,他使用這種解決方案倖存了Slashdot攻擊。