如何查看/編輯/避免重複scrapy？

我只是想知道如何重置dupefilter過程，以避免一定數量的url被過濾。事實上，我測試了履帶很多次成功之前，現在，我想的東西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1 它不斷告訴我，一些URL被複制，然後沒去過運行它..如何查看/編輯/避免重複scrapy？

將是絕對OK從該履帶刪除所有URL
將不勝感激知道在哪裏重複URL過濾（然後我可以編輯？）
請求無過濾器是不可能與我的問題，因爲它會循環

我可以添加我的代碼，但因爲這是一個普遍的問題，所以我覺得它會比任何事情都更令人困惑。只要問你是否需要它:)

非常感謝你，

來源

2016-12-29 Bergenist

您可以設置scrapys DUPEFILTER_CLASS設置用自己的dupefilter類或只是更改擴展默認RFPDupeFilter（source code）類。

本文檔pages explains a bit more：

默認（RFPDupeFilter）的基礎上使用scrapy.utils.request.request_fingerprint功能請求指紋過濾器。

爲了改變重複檢查的方式，您可以繼承RFPDupeFilter並覆蓋它的request_fingerprint方法。該方法應接受scrapy Request對象並返回其指紋（字符串）。

來源

2016-12-29 10:40:33 Granitosaurus

謝謝！這對我來說有點複雜，但我會弄明白的！ – Bergenist

如何查看/編輯/避免重複scrapy？

回答

相關問題