Scrapy併發或分佈式抓取

我想使用scrapy抓取相當大的網站。在某些情況下，我已經有鏈接進行刮擦，而在其他情況下，我需要提取（抓取）它們。運行時我還需要訪問數據庫兩次。一旦爲了確定一個url是否需要被抓取（Spider中間件），並且一次爲了存儲提取的信息（Item pipeline）。理想情況下，我將能夠運行併發或分佈式爬網，以加快速度。使用scrapy運行併發或分佈式爬網的推薦方式是什麼？Scrapy併發或分佈式抓取

來源

2015-05-27 user1247196

您應該檢查scrapy_redis。

實現起來非常簡單。您的scheduler和duplicate filter將存儲在redis隊列中。所有的蜘蛛將同時工作，並且你應該加快爬行時間。

希望這會有所幫助。

來源

2017-04-26 15:29:24

Scrapy併發或分佈式抓取

回答

相關問題