0
我正在使用Scrapy框架來讓蜘蛛爬過一些網頁。基本上,我想要的是廢棄網頁並將其保存到數據庫。每個網頁都有一個蜘蛛。但是我很難一次運行這些蜘蛛,這樣一隻蜘蛛在另一隻蜘蛛完成爬行後開始爬行。這怎麼能實現?是否可以解決這個問題?一個接一個地運行多個蜘蛛
我正在使用Scrapy框架來讓蜘蛛爬過一些網頁。基本上,我想要的是廢棄網頁並將其保存到數據庫。每個網頁都有一個蜘蛛。但是我很難一次運行這些蜘蛛,這樣一隻蜘蛛在另一隻蜘蛛完成爬行後開始爬行。這怎麼能實現?是否可以解決這個問題?一個接一個地運行多個蜘蛛
scrapyd確實去,max_proc或max_proc_per_cpu配置可用於限制平行spdiers的數量的好方法,然後你會使用schedule蜘蛛scrapyd REST API,如:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider
爲什麼要使用API? ? – Nabin
多數民衆贊成在你與scrapyd交互的方式... –
我有兩個蜘蛛:蜘蛛1和蜘蛛2。現在該如何開始做呢? – Nabin