2015-11-03 150 views
1

我如何使用scrapy來執行「預定」抓取?我的意思是,我不希望scrapy連續運行,我希望它運行讓我們說1K網址爬行,然後休息一下,然後重新啓動。Scrapy抓取歷史

爲什麼我要求是以下兩個原因:

1 - 我不想scrapy把過度負載的虛擬機上,如果我有運行多個爬蟲。

我是否應該爲scrapy服用太多的ram而煩惱?

2-如果scrapy爬行由於某種原因失敗,我該如何從停止的地方重新啓動?它會自動執行嗎?或者我必須重新從頭開始?

第二點我很關心。

+0

我正在考慮一些[extension](http://doc.scrapy.org/en/latest/topics/extensions.html),就像[CloseSpider](https://github.com/scrapy/scrapy/ blob/master/scrapy/extensions/closespider.py),當page_count命中特定的數字時設置爲睡眠狀態,此刻無法嘗試 – eLRuLL

回答

1

這裏有一個關於文檔的部分:Jobs: Pausing and Resuming Crawls。對於內存,只要你沒有做一些可以保持對象活着的東西(或者把所有的結果存儲在內存中),那麼通常是內存不是一個大問題。這是所有數據通過並被丟棄(有一些例外)。

默認情況下,Scrapy在抓取時不保存其狀態,請參閱上面的鏈接以獲取更多詳細信息。

+0

感謝您的快速響應。我正在查找文檔中的確切內容。但可能會丟失所有內容並跳過它。 –