2015-12-11 96 views
1

我有數千個來自同一個域(存儲在MongoDB中)的URL,我需要使用scrapy進行爬網。事情是,蜘蛛抓取第一個URL,完成,然後拿起第二個。我怎樣才能讓它一次獲取多個網址,並且所有網址都可以並行抓取 - 獨立?運行Scrapy Spider的多個實例

我總是可以多次運行命令scrapy crawl <spidername>多次,但我正在尋找比這更復雜的解決方案。

實驗點子歡迎光臨!

+0

要小心 - 這聽起來像是一種很好的方法來禁止你從你爬行的域名! – zelanix

+0

我瞭解風險。請假設域所有者永久將我的IP地址 –

+0

@PraveshJain列入了白名單,您是否調整過[CONCURRENT_REQUESTS]條款(http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests)和['CONCURRENT_REQUESTS_PER_DOMAIN'](http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests-per-domain)?設置這些值足夠高,scrapy應該同時下載大量頁面。 –

回答

0

您可以在蜘蛛的start_urls參數中加載Mongo中的所有URL。然後Scrapy將從這個列表中選擇URL並開始同時處理它們。