運行Scrapy Spider的多個實例

我有數千個來自同一個域（存儲在MongoDB中）的URL，我需要使用scrapy進行爬網。事情是，蜘蛛抓取第一個URL，完成，然後拿起第二個。我怎樣才能讓它一次獲取多個網址，並且所有網址都可以並行抓取 - 獨立？運行Scrapy Spider的多個實例

我總是可以多次運行命令scrapy crawl <spidername>多次，但我正在尋找比這更復雜的解決方案。

實驗點子歡迎光臨！

來源

2015-12-11 Pravesh Jain

要小心 - 這聽起來像是一種很好的方法來禁止你從你爬行的域名！ – zelanix

我瞭解風險。請假設域所有者永久將我的IP地址 –

@PraveshJain列入了白名單，您是否調整過[CONCURRENT_REQUESTS]條款（http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests）和['CONCURRENT_REQUESTS_PER_DOMAIN']（http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests-per-domain）？設置這些值足夠高，scrapy應該同時下載大量頁面。 –

您可以在蜘蛛的start_urls參數中加載Mongo中的所有URL。然後Scrapy將從這個列表中選擇URL並開始同時處理它們。

來源

2015-12-15 12:19:49 Nikhil

運行Scrapy Spider的多個實例

回答

相關問題