Scrapy抓取歷史

我如何使用scrapy來執行「預定」抓取？我的意思是，我不希望scrapy連續運行，我希望它運行讓我們說1K網址爬行，然後休息一下，然後重新啓動。Scrapy抓取歷史

爲什麼我要求是以下兩個原因：

1 - 我不想scrapy把過度負載的虛擬機上，如果我有運行多個爬蟲。

我是否應該爲scrapy服用太多的ram而煩惱？

2-如果scrapy爬行由於某種原因失敗，我該如何從停止的地方重新啓動？它會自動執行嗎？或者我必須重新從頭開始？

第二點我很關心。

2015-11-03 Codious-JR

我正在考慮一些[extension]（http://doc.scrapy.org/en/latest/topics/extensions.html），就像[CloseSpider]（https://github.com/scrapy/scrapy/ blob/master/scrapy/extensions/closespider.py），當page_count命中特定的數字時設置爲睡眠狀態，此刻無法嘗試 – eLRuLL

這裏有一個關於文檔的部分：Jobs: Pausing and Resuming Crawls。對於內存，只要你沒有做一些可以保持對象活着的東西（或者把所有的結果存儲在內存中），那麼通常是內存不是一個大問題。這是所有數據通過並被丟棄（有一些例外）。

默認情況下，Scrapy在抓取時不保存其狀態，請參閱上面的鏈接以獲取更多詳細信息。

來源

2015-11-03 22:52:13 Rejected

感謝您的快速響應。我正在查找文檔中的確切內容。但可能會丟失所有內容並跳過它。 –

Scrapy抓取歷史

回答

相關問題