一個接一個地運行多個蜘蛛

我正在使用Scrapy框架來讓蜘蛛爬過一些網頁。基本上，我想要的是廢棄網頁並將其保存到數據庫。每個網頁都有一個蜘蛛。但是我很難一次運行這些蜘蛛，這樣一隻蜘蛛在另一隻蜘蛛完成爬行後開始爬行。這怎麼能實現？是否可以解決這個問題？一個接一個地運行多個蜘蛛

2014-02-11 Nabin

scrapyd確實去，max_proc或max_proc_per_cpu配置可用於限制平行spdiers的數量的好方法，然後你會使用schedule蜘蛛scrapyd REST API，如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

2014-02-11 06:17:28

爲什麼要使用API？？ – Nabin

多數民衆贊成在你與scrapyd交互的方式... –

我有兩個蜘蛛：蜘蛛1和蜘蛛2。現在該如何開始做呢？ – Nabin

回答