2016-05-22 54 views
0

我已經創建了一個刮板,它從網站下載所有文件,並使用物品管道將下載鏈接保存在JSON文件中。如何防止再次下載相同的文件,如果其鏈接在JSON文件中找到。scrapy防止下載文件,如果已經下載

+0

顯示你已經這麼遠的代碼。 –

回答

1

偉大的問題!事實是,你想要做的事情是非常複雜的,以通用的方式編程(你必須編寫自己的中間件或自定義RFPDupeFilter here。但你很幸運,另一種通用的方法來實現你想要的只是pausing and resuming crawls這是已經實現和測試。

+0

謝謝您的回答這正是我一直在尋找的。 –

+0

@neverlastn我想重複過濾是默認行爲[」這兩種管道都實現了這些功能::避免重新下載最近下載的介質](http://doc.scrapy.org/en/latest/topics/media-pipeline.html#downloading-and-processing-files-and -images), – Steve

+0

@Steve當然de-dump是默認的,但沒有預加載thos的API使用一組初始URL來忽略。這就是要求在這裏:-) – neverlastn