我正在學習Scrapy一個網頁爬行框架。
默認情況下,它不會抓取scrapy已經抓取的重複的url或url。如何強制scrapy抓取重複的url?
如何使Scrapy抓取已經爬網的重複的url或url?
我試圖找出在互聯網上,但無法找到相關的幫助。
我發現DUPEFILTER_CLASS = RFPDupeFilter
和SgmlLinkExtractor
從Scrapy - Spider crawls duplicate urls但這個問題是相反的我所期待
我正在學習Scrapy一個網頁爬行框架。
默認情況下,它不會抓取scrapy已經抓取的重複的url或url。如何強制scrapy抓取重複的url?
如何使Scrapy抓取已經爬網的重複的url或url?
我試圖找出在互聯網上,但無法找到相關的幫助。
我發現DUPEFILTER_CLASS = RFPDupeFilter
和SgmlLinkExtractor
從Scrapy - Spider crawls duplicate urls但這個問題是相反的我所期待
你可能找上Request()
的dont_filter=True
說法。 見http://doc.scrapy.org/en/latest/topics/request-response.html#request-objects
一個更優雅的解決方案是完全禁用重複的過濾器:
# settings.py
DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'
這種方式,你不必與混亂= dont_filter真所有的請求創建代碼。