2011-02-18 43 views
0

我正在做一個RSS蜘蛛。你如何控制最後一次抓取 的日期?Scrapy:RSS控件pub_date

現在我在想是這樣的:

  • 在控制文件把,我已經爬到最後PUB_DATE。
  • 然後,當抓取開始時,它會根據 新pub_dates檢查最後一個pub_date。如果有新項目,則開始爬行,如果沒有,則不要執行 。

其他人如何解決這個問題?

回答

1

我將所有數據存儲在數據庫中(包括上次抓取日期和發佈日期),並從數據庫中獲取所需的所有日期。

0

我還將所有數據存儲在數據庫中,並計算出數據中的散列值。這樣您就可以快速查找哈希,並且可以即時執行重複數據刪除操作。

+1

你能否詳細說明你是如何做到這一點的? – 2012-09-29 00:08:58