2016-12-29 48 views
0

我只是想知道如何重置dupefilter過程,以避免一定數量的url被過濾。 事實上,我測試了履帶很多次成功之前,現在,我想的東西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1 它不斷告訴我,一些URL被複制,然後沒去過運行它..如何查看/編輯/避免重複scrapy?

  • 將是絕對OK從該履帶刪除所有URL
  • 將不勝感激知道在哪裏重複URL過濾(然後我可以編輯?)
  • 請求無過濾器是不可能與我的問題,因爲它會循環

我可以添加我的代碼,但因爲這是一個普遍的問題,所以我覺得它會比任何事情都更令人困惑。只要問你是否需要它:)

非常感謝你,

回答

0

您可以設置scrapys DUPEFILTER_CLASS設置用自己的dupefilter類或只是更改擴展默認RFPDupeFiltersource code)類。

本文檔pages explains a bit more

默認(RFPDupeFilter)的基礎上使用scrapy.utils.request.request_fingerprint功能請求指紋過濾器。

爲了改變重複檢查的方式,您可以繼承RFPDupeFilter並覆蓋它的request_fingerprint方法。該方法應接受scrapy Request對象並返回其指紋(字符串)。

+0

謝謝!這對我來說有點複雜,但我會弄明白的! – Bergenist