12
我正在使用scrapy在網站上檢索多個頁面。 變量start_urls
用於定義要爬網的頁面。 我最初開始第1頁,從而確定start_urls = [1st page]
文件example_spider.py
scrapy中的動態start_urls
在當從第1頁獲得更多的信息,我將確定什麼是被抓取網頁旁邊,然後將相應分配start_urls
。因此,我必須覆蓋上面的example_spider.py,更改爲start_urls = [1st page, 2nd page, ..., Kth page]
,然後再次運行scrapy抓取。
這是最好的方法還是有更好的方法來動態分配使用scrapy API start_urls
而不必覆蓋example_splider.py
? 謝謝。
是parseItem(self,response)是否返回該項目? – friddle 2013-12-02 12:39:15
'parseItem'作爲任何其他回調可以返回一個'Item'或另一個'請求'與另一個回調 – warvariuc 2013-12-02 13:04:09
謝謝你回答 – friddle 2013-12-03 11:58:04