2

有一個包含大量文件的硬盤,您將如何找到其中的重複文件。
我們可以做的第一件事是基於FILE_SIZE的單獨文件。
然後我們可以使用像MD5這樣的算法找到每個文件的哈希值,哈希值相同的哈希值將是重複的。通過技術在硬盤上查找重複文件,而不是在每個文件上計算哈希值

除了使用FILE_SIZE之外,任何人都可以介紹一些其他方法來分離重複文件的候選項。也許使用文件頭,擴展名或其他想法?

回答

2

您可能想要使用多個級別的比較,快速的比較首先避免運行速度較慢的比較必要的比較。建議:

  1. 比較文件長度。

  2. 然後比較文件的前1K字節。

  3. 然後比較文件的最後1K字節。 (文件的第一部分和最後部分更可能包含簽名,內部校驗和,修改數據等,這些將會改變)。

  4. 比較文件的CRC32校驗和。使用CRC而不是加密散列,除非您有安全措施需要關注。 CRC將會更快。

相關問題