我正在尋找一個實用程序,它將幫助我查找重複的PDF。問題:我有1000個PDF文件。有些是重複的。由於不同的文件名稱和文件大小的細微差異,它們並不容易檢測到。是否有一個實用程序/算法/庫,可以幫助我找到重複或顯示非常相似(或差異程度)的文件?查找複製PDFs
Q
查找複製PDFs
3
A
回答
1
1
爲每個文件創建一個MD5散列並將其存儲在數據庫中。然後相同的文件將相鄰排序,或者您可以快速搜索預先存在的密鑰。
2
如果文件是由不同的工具創建的,它們可能看起來相同,但會產生非常不同的結果,因爲它們的結構完全不同。我在一篇博客文章中提出了一些建議https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/
1
我記得有一個名爲pdf2txt的UNIX實用程序(請參閱包poppler-utils
)。您可以嘗試從文件中提取文本並進行文本比較。
1
問題還沒有解決。我所做的是,我使用fdupes http://premium.caribe.net/~adrian2/fdupes.html來查找確切的重複項。
但最重要的是,我使用的工作流最小化了重複。每一個進入我的系統的文檔都被這個Perl腳本編入索引,我寫了:http://seegras.discordia.ch/Programs/fileindex,它把一些名字和它的一個md5和加到〜/ .fileindex.md5中現在我可以改變本地PDF文件的元數據或任何再次運行fileindex),並且每當我不經意地再次下載同一個文件時,我將繼續運行原始文件的md5-sum,從而可以檢測它是否是重複的。
還有exif-meta和exif重命名http://seegras.discordia.ch/Programs/這有助於設置PDF元數據和根據元數據重命名PDF文件;如果您正確標記所有文件,則最終會出現重複的文件名,表明它們可能是不同文件中的同一文件。
相關問題
- 1. TSQL查找複製
- 2. 查找和複製代碼
- 3. 查找範圍SQL複製
- 4. VBA複製和查找
- 5. 查找和複製文件
- 6. 查找已複製變量
- 7. 貓鼬avoide與查找查詢複製
- 8. 在Sweave中製作拼合的pdfs
- 9. 合併PDFs iTextSharp
- 10. Digitally sign pdfs
- 11. 複製/粘貼的查找問題
- 12. 查找單元頭複製到
- 13. VBA查找值表複製公式
- 14. 查找MySQL的複製與行JPA QueryDSL
- 15. 批量查找和複製行
- 16. 使用JQuery查找和複製圖像
- 17. Javascript - 查找並複製下拉列表
- 18. 的Javascript/jQuery的查找文本複製
- 19. 查找重複
- 20. 查找重複
- 21. 查找重複
- 22. sorl-thumbnail多頁pdfs
- 23. 使用VoiceOver for PDFs
- 24. combine_pdf不結合pdfs
- 25. pypdf的pdfs列表
- 26. Excel宏查找重複和複製其相鄰單元
- 27. 查找重複並將相鄰單元格複製到
- 28. 在數據庫中查找被複制/重複結構的表
- 29. 查找重複子
- 30. MongoDB複雜查找
剛剛找到可以工作的實用程序:http://anti-twin.com/ – Elvin 2010-10-03 15:45:29