scrapy防止下載文件，如果已經下載

我已經創建了一個刮板，它從網站下載所有文件，並使用物品管道將下載鏈接保存在JSON文件中。如何防止再次下載相同的文件，如果其鏈接在JSON文件中找到。scrapy防止下載文件，如果已經下載

2016-05-22 Prasanta Kakati

顯示你已經這麼遠的代碼。 –

偉大的問題！事實是，你想要做的事情是非常複雜的，以通用的方式編程（你必須編寫自己的中間件或自定義RFPDupeFilter here。但你很幸運，另一種通用的方法來實現你想要的只是pausing and resuming crawls這是已經實現和測試。

來源

2016-05-23 01:58:31 neverlastn

謝謝您的回答這正是我一直在尋找的。 –

@neverlastn我想重複過濾是默認行爲[」這兩種管道都實現了這些功能：：避免重新下載最近下載的介質]（http://doc.scrapy.org/en/latest/topics/media-pipeline.html#downloading-and-processing-files-and -images）， – Steve

@Steve當然de-dump是默認的，但沒有預加載thos的API使用一組初始URL來忽略。這就是要求在這裏:-) – neverlastn

scrapy防止下載文件，如果已經下載

回答

相關問題