如何強制scrapy抓取重複的url？

我正在學習Scrapy一個網頁爬行框架。
默認情況下，它不會抓取scrapy已經抓取的重複的url或url。如何強制scrapy抓取重複的url？

如何使Scrapy抓取已經爬網的重複的url或url？
我試圖找出在互聯網上，但無法找到相關的幫助。

我發現DUPEFILTER_CLASS = RFPDupeFilter和SgmlLinkExtractor從Scrapy - Spider crawls duplicate urls但這個問題是相反的我所期待

2014-04-17 11:21:56

一個更優雅的解決方案是完全禁用重複的過濾器：

# settings.py 
DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

這種方式，你不必與混亂= dont_filter真所有的請求創建代碼。

2018-02-23 12:00:42 rrschmidt

回答