0
我正在做一個RSS蜘蛛。你如何控制最後一次抓取 的日期?Scrapy:RSS控件pub_date
現在我在想是這樣的:
- 在控制文件把,我已經爬到最後PUB_DATE。
- 然後,當抓取開始時,它會根據 新pub_dates檢查最後一個pub_date。如果有新項目,則開始爬行,如果沒有,則不要執行 。
其他人如何解決這個問題?
我正在做一個RSS蜘蛛。你如何控制最後一次抓取 的日期?Scrapy:RSS控件pub_date
現在我在想是這樣的:
其他人如何解決這個問題?
我將所有數據存儲在數據庫中(包括上次抓取日期和發佈日期),並從數據庫中獲取所需的所有日期。
我還將所有數據存儲在數據庫中,並計算出數據中的散列值。這樣您就可以快速查找哈希,並且可以即時執行重複數據刪除操作。
你能否詳細說明你是如何做到這一點的? – 2012-09-29 00:08:58