Scrapy：選擇基於mysql的網址的最佳方式

我做了一個Scrapy抓取工具，它從論壇主題收集一些數據。在列表頁面上，我可以看到上次修改日期。基於該日期，我想決定是否重新抓取線程。我使用管道將數據存儲在mysql中。在用CrawlSpider處理列表頁面時，我想檢查mysql中的一條記錄，並基於該記錄我要麼產生請求或不產生請求。（我不想加載的網址，除非有一個新的職位。）Scrapy：選擇基於mysql的網址的最佳方式

什麼是最好的辦法做到這一點？

來源

2013-03-12 Kicsi

使用CrawSpiderRule：

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),

在你的蜘蛛

然後：

def check_moddate(self, request): 
    def dateisnew(): 
     # check the date 
    if dateisnew(): 
     return request

來源

2013-03-14 13:15:16

Scrapy：選擇基於mysql的網址的最佳方式

回答

相關問題