2014-02-11 59 views
0

我正在使用Scrapy框架來讓蜘蛛爬過一些網頁。基本上,我想要的是廢棄網頁並將其保存到數據庫。每個網頁都有一個蜘蛛。但是我很難一次運行這些蜘蛛,這樣一隻蜘蛛在另一隻蜘蛛完成爬行後開始爬行。這怎麼能實現?是否可以解決這個問題?一個接一個地運行多個蜘蛛

回答

1

scrapyd確實去,max_procmax_proc_per_cpu配置可用於限制平行spdiers的數量的好方法,然後你會使用schedule蜘蛛scrapyd REST API,如:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider 
+0

爲什麼要使用API​​? ? – Nabin

+0

多數民衆贊成在你與scrapyd交互的方式... –

+0

我有兩個蜘蛛:蜘蛛1和蜘蛛2。現在該如何開始做呢? – Nabin

相關問題