7
我正在使用scrapy CrawlSpider
並定義了一個雙絞線來控制我的爬行程序。在測試期間,我爬過一個收集超過幾GB數據的新聞網站。大多數情況下,我對最新的故事感興趣,所以我正在尋找一種方法來限制請求的頁數,字節或秒。Scrapy:限制請求或請求字節數
是否有明確的
- request_bytes
- request_counts或
- 運行時間(秒)極限的常用方法?
我正在使用scrapy CrawlSpider
並定義了一個雙絞線來控制我的爬行程序。在測試期間,我爬過一個收集超過幾GB數據的新聞網站。大多數情況下,我對最新的故事感興趣,所以我正在尋找一種方法來限制請求的頁數,字節或秒。Scrapy:限制請求或請求字節數
是否有明確的
在scrapy
有類scrapy.contrib.closespider.CloseSpider
。 您可以定義變量CLOSESPIDER_TIMEOUT
,CLOSESPIDER_ITEMCOUNT
, CLOSESPIDER_PAGECOUNT
和CLOSESPIDER_ERRORCOUNT
。
蜘蛛自動關閉,當標準被滿足: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider
是有辦法CLOSESIPDER_PAGECOUNT可以動態地爲每個蜘蛛設置? –
@ImanAkbari:請爲您的問題創建一個合適的問題。 – Jon