我想根據索引頁上的數據或信息來編寫抓取某些頁面的蜘蛛。然後將結果存儲在數據庫中。如何基於索引頁上的信息來抓取網頁
例如,讓說,我想爬stackoverflow.com/questions/tagged/scrapy 我會去通過索引頁面,如果這個問題是不是在我的數據庫,那麼我會保存回答次數在數據庫,然後按照問題的鏈接並抓取該頁面。
如果問題已經存在於數據庫中,但答案數大於數據庫中的問題:再次抓取該頁。
如果問題已經在數據庫中並且答案計數器是相同的:請跳過此問題。
目前我可以在索引頁面上獲得所有鏈接和答案數(在本例中)。 但我不知道如何讓蜘蛛跟隨回答計數問題頁面的鏈接。
有沒有辦法用一個蜘蛛,而不是有兩個蜘蛛要做到這一點,一個蜘蛛越來越索引頁上的所有環節,與數據庫中的數據進行比較,輸出一個JSON或CSV文件,然後將其傳遞到另一個蜘蛛爬行問題頁面?
當蜘蛛運行時,我可以動態地在start_urls列表中添加URL嗎?在你的例子中,蜘蛛開始抓取第一個問題頁面,但它不會繼續到第二個頁面。我可以在第一頁上添加第二頁到start_urls基礎上嗎?例如,如果第一頁的最後一個問題不在我的數據庫中,這意味着第二頁上可能會有更多新問題,這些問題我還沒有涉及。所以我應該去第二頁查看。我能以某種方式在蜘蛛運行時將新網址附加到start_urls上嗎? – user1499532 2012-10-06 17:20:36