是否可以按照與它們關聯的日期刮取鏈接?我試圖實現一個每日運行的蜘蛛,它將文章信息保存到數據庫中,但我不想重新刮掉我以前已經刮過的文章 - 例如昨天的文章。我跑過this SO帖子詢問同樣的事情,並建議scrapy-deltafetch plugin。Scrapy - 按日期刮刮鏈接
但是,這依賴於檢查存儲在數據庫中以前保存的request fingerprints的新請求。我假設,如果每天都在進行一段時間的挖掘,那麼就需要在數據庫上存儲大量的內存開銷,以存儲已被抓取的請求指紋。
因此,給定一個像cnn.com這樣的網站上的文章列表,我想刮掉今天6/14/17發佈的所有文章,但是一旦刮板碰到後來被列爲6/13/17,我想關閉蜘蛛並停止刮擦。 scrapy可以實現這種方法嗎?給定一頁文章,CrawlSpider
會從頁面頂部開始並按順序刮掉文章?
剛剛來到Scrapy
,所以不知道該怎麼嘗試。任何幫助將不勝感激,謝謝!
我認爲它不是內置於'scrapy'中,但考慮到文章網址應該採用'/ 2017/06/14/politics/two-arrested-brawl-turkish-embassy/index.html'的格式。你有沒有想過解析URL的日期並比較它? – etemple1
@ etemple1不幸的是,在這種情況下'cnn.com'只是一個示例網站,而不是我想要抓取的網站。大多數我想抓取的網站都不包含網址 – ocean800
中的日期啊,好的。那麼你怎麼知道鏈接的「相關日期」呢? – etemple1