2013-03-12 45 views
0

我做了一個Scrapy抓取工具,它從論壇主題收集一些數據。在列表頁面上,我可以看到上次修改日期。 基於該日期,我想決定是否重新抓取線程。我使用管道將數據存儲在mysql中。在用CrawlSpider處理列表頁面時,我想檢查mysql中的一條記錄,並基於該記錄我要麼產生請求或不產生請求。 (我不想加載的網址,除非有一個新的職位。)Scrapy:選擇基於mysql的網址的最佳方式

什麼是最好的辦法做到這一點?

回答

0

使用CrawSpiderRule

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'), 
在你的蜘蛛

然後:

def check_moddate(self, request): 
    def dateisnew(): 
     # check the date 
    if dateisnew(): 
     return request 
相關問題