0
我做了一個Scrapy抓取工具,它從論壇主題收集一些數據。在列表頁面上,我可以看到上次修改日期。 基於該日期,我想決定是否重新抓取線程。我使用管道將數據存儲在mysql中。在用CrawlSpider處理列表頁面時,我想檢查mysql中的一條記錄,並基於該記錄我要麼產生請求或不產生請求。 (我不想加載的網址,除非有一個新的職位。)Scrapy:選擇基於mysql的網址的最佳方式
什麼是最好的辦法做到這一點?
我做了一個Scrapy抓取工具,它從論壇主題收集一些數據。在列表頁面上,我可以看到上次修改日期。 基於該日期,我想決定是否重新抓取線程。我使用管道將數據存儲在mysql中。在用CrawlSpider處理列表頁面時,我想檢查mysql中的一條記錄,並基於該記錄我要麼產生請求或不產生請求。 (我不想加載的網址,除非有一個新的職位。)Scrapy:選擇基於mysql的網址的最佳方式
什麼是最好的辦法做到這一點?
使用CrawSpider
Rule
:
Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),
在你的蜘蛛
然後:
def check_moddate(self, request):
def dateisnew():
# check the date
if dateisnew():
return request