我已經創建了一個刮板,它從網站下載所有文件,並使用物品管道將下載鏈接保存在JSON
文件中。如何防止再次下載相同的文件,如果其鏈接在JSON
文件中找到。scrapy防止下載文件,如果已經下載
回答
偉大的問題!事實是,你想要做的事情是非常複雜的,以通用的方式編程(你必須編寫自己的中間件或自定義RFPDupeFilter here。但你很幸運,另一種通用的方法來實現你想要的只是pausing and resuming crawls這是已經實現和測試。
謝謝您的回答這正是我一直在尋找的。 –
@neverlastn我想重複過濾是默認行爲[」這兩種管道都實現了這些功能::避免重新下載最近下載的介質](http://doc.scrapy.org/en/latest/topics/media-pipeline.html#downloading-and-processing-files-and -images), – Steve
@Steve當然de-dump是默認的,但沒有預加載thos的API使用一組初始URL來忽略。這就是要求在這裏:-) – neverlastn
- 1. maven,如何跳過下載的工件,如果已經下載
- 2. 防止PHP文件下載
- 3. 防止文件下載
- 4. PHP文件下載防止
- 5. 防止文件下載,RoR
- 6. 防止下載?
- 7. 下載管理器 - 重命名下載,如果文件已經存在
- 8. DownloadManager下載文件,如果它已被下載
- 9. WebClient - 等到文件已經下載
- 10. Wget的:跳過下載,如果文件已經存在?
- 11. 防止下載重複的Javascript文件
- 12. 防止Ajax重新下載js文件
- 13. VB.net文件下載防止回發
- 14. 防止IFRAME下載的SWF文件
- 15. 如何防止在我已經有工件後從遠程存儲庫下載?
- 16. 防止PDF自動下載
- 17. 防止強制下載
- 18. 防止從用戶下載
- 19. HTML 5防止下載
- 20. 防止下載.mov視頻
- 21. 如果已經加載實例,如何防止加載一個筆尖?
- 22. 防止SharePoint文檔下載和打印
- 23. 如何防止pdf下載到iframe時下載?
- 24. Scrapy正在下載文件錯誤
- 25. Scrapy Media Pipeline,文件無法下載
- 26. 使用Scrapy下載PDF文件
- 27. 使用Scrapy下載csv文件 - Python
- 28. Scrapy圖像下載
- 29. ClientAccessPolicy文件下載中止
- 30. 如何防止文件下載到未經身份驗證的用戶
顯示你已經這麼遠的代碼。 –