請幫我解決以下案例:Scrapy案例:增量更新項目
想象一下典型的分類類別頁面。包含項目列表的頁面。當你點擊你登陸內部頁面的項目時。目前我的抓取工具會抓取所有這些網址,進一步抓取這些網址以獲取該項目的詳細信息,檢查是否將最初的種子URL作爲任何下一頁。如果有,它進入下一頁並執行相同的操作。我將這些項目存儲在一個SQL數據庫中。
說3天后,種子URL中有新的itmes,我只想報廢新項目。可能的解決方案如下:
在抓取每個項目時,我檢查數據庫以查看URL是否已被抓取。如果有,我只是要求Scrapy停止進一步爬行。 問題:我不想每次查詢數據庫。我的數據庫將會非常大,並且最終會導致爬行超慢。
我嘗試存儲上次抓取的網址,並在開始時傳遞它,並在發現此last_scraped_url時立即停止抓取工具。 由於抓取網址的異步性質不是按照從種子網址接收的順序進行抓取,因此不可能進行抓取。 (我嘗試了所有方法,使之在有序的方式 - 但是這根本不可能)
任何人可以提出任何其他的想法?過去三天我一直在努力掙扎。
欣賞您的回覆。
如何生成種子URL中的項目?你對此有任何控制嗎? – 2013-03-21 00:27:29