1
我有大約1TB的圖像,存儲在我的硬盤上。這些是隨着時間的推移拍攝的朋友和家人的照片。這些圖片中的許多圖片都是重複的,從某種意義上講,同一個文件保存在不同的位置,可能也會有不同的名稱。我想問問是否有任何工具,實用程序或方法(我可以編寫一個)來找出重複的文件。查找重複的圖像文件
我有大約1TB的圖像,存儲在我的硬盤上。這些是隨着時間的推移拍攝的朋友和家人的照片。這些圖片中的許多圖片都是重複的,從某種意義上講,同一個文件保存在不同的位置,可能也會有不同的名稱。我想問問是否有任何工具,實用程序或方法(我可以編寫一個)來找出重複的文件。查找重複的圖像文件
我會推薦使用md5deep or sha1deep。在Linux上,只需安裝包md5deep
(它包含在大多數Linux發行版中)。
一旦你安裝它,只需在你的整個磁盤遞歸模式下運行,並使用命令你這樣的磁盤上保存校驗每個文件爲文本文件:
md5deep -r -l . > filelist.txt
如果你喜歡比sha1
更好md5
,改爲使用sha1deep
(它是同一包中的一部分)。
一旦你有一個文件,只需使用sort
(或管道將它導入sort
在前面的步驟)對其進行排序:
sort <filelist.txt> filelist_sorted.txt
現在,只需看看使用任何文本編輯器的結果 - 你很快就會看到所有複製品與他們在磁盤上的位置一起。
如果您非常喜歡,可以使用Perl或Python編寫簡單的腳本來刪除基於此文件列表的重複項。
是否有一些可用的東西在Windows中。 – abhinav 2013-03-06 05:42:23
是的,Windows二進制文件可以在我提供的鏈接 – mvp 2013-03-06 05:42:52
也只是好奇,這是一個很好的例子來嘗試一些地圖縮減代碼,如果圖像數據將增加到更大的體積。 – abhinav 2013-03-06 05:43:06