我只是想知道如何重置dupefilter過程,以避免一定數量的url被過濾。 事實上,我測試了履帶很多次成功之前,現在,我想的東西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1
它不斷告訴我,一些URL被複制,然後沒去過運行它..如何查看/編輯/避免重複scrapy?
- 將是絕對OK從該履帶刪除所有URL
- 將不勝感激知道在哪裏重複URL過濾(然後我可以編輯?)
- 請求無過濾器是不可能與我的問題,因爲它會循環
我可以添加我的代碼,但因爲這是一個普遍的問題,所以我覺得它會比任何事情都更令人困惑。只要問你是否需要它:)
非常感謝你,
謝謝!這對我來說有點複雜,但我會弄明白的! – Bergenist