2015-05-27 38 views
4

我想使用scrapy抓取相當大的網站。在某些情況下,我已經有鏈接進行刮擦,而在其他情況下,我需要提取(抓取)它們。運行時我還需要訪問數據庫兩次。一旦爲了確定一個url是否需要被抓取(Spider中間件),並且一次爲了存儲提取的信息(Item pipeline)。 理想情況下,我將能夠運行併發或分佈式爬網,以加快速度。使用scrapy運行併發或分佈式爬網的推薦方式是什麼?Scrapy併發或分佈式抓取

回答

0

您應該檢查scrapy_redis

實現起來非常簡單。您的schedulerduplicate filter將存儲在redis隊列中。所有的蜘蛛將同時工作,並且你應該加快爬行時間。

希望這會有所幫助。