2013-03-06 67 views
1

我有大約1TB的圖像,存儲在我的硬盤上。這些是隨着時間的推移拍攝的朋友和家人的照片。這些圖片中的許多圖片都是重複的,從某種意義上講,同一個文件保存在不同的位置,可能也會有不同的名稱。我想問問是否有任何工具,實用程序或方法(我可以編寫一個)來找出重複的文件。查找重複的圖像文件

回答

4

我會推薦使用md5deep or sha1deep。在Linux上,只需安裝包md5deep(它包含在大多數Linux發行版中)。

一旦你安裝它,只需在你的整個磁盤遞歸模式下運行,並使用命令你這樣的磁盤上保存校驗每個文件爲文本文件:

md5deep -r -l . > filelist.txt 

如果你喜歡比sha1更好md5,改爲使用sha1deep(它是同一包中的一部分)。

一旦你有一個文件,只需使用sort(或管道將它導入sort在前面的步驟)對其進行排序:

sort <filelist.txt> filelist_sorted.txt 

現在,只需看看使用任何文本編輯器的結果 - 你很快就會看到所有複製品與他們在磁盤上的位置一起。

如果您非常喜歡,可以使用Perl或Python編寫簡單的腳本來刪除基於此文件列表的重複項。

+0

是否有一些可用的東西在Windows中。 – abhinav 2013-03-06 05:42:23

+0

是的,Windows二進制文件可以在我提供的鏈接 – mvp 2013-03-06 05:42:52

+0

也只是好奇,這是一個很好的例子來嘗試一些地圖縮減代碼,如果圖像數據將增加到更大的體積。 – abhinav 2013-03-06 05:43:06