2014-12-13 116 views
4

我有一個非常大的文件夾(〜10GB),其中包含許多重複的文件遍及它的目錄樹。許多這些文件被複制了10次。重複的文件不是並排存在,而是位於不同的子目錄中。壓縮包含許多重複文件的文件夾

如何壓縮文件夾以使其足夠小?

我試圖在「最佳」模式下使用Winrar,但它並沒有壓縮它。 (很奇怪)

將壓縮\ tar \ cab \ 7z \任何其他壓縮工具做得更好嗎?

我不介意讓工具工作幾個小時 - 但不是更多。

我不想做編程自己從www.exdupe.com

回答

3

WinRAR的壓縮每個默認單獨存檔。因此,默認情況下壓縮具有許多相似或甚至相同文件的文件夾結構沒有真正的收益。

但也可以選擇創建固件存檔。打開的幫助WinRAR並打開內容選項存檔類型和參數並點擊固體檔案。本幫助頁面說明了固體存檔的內容以及此存檔文件格式具有的優點和缺點。

具有較大字典大小並結合最佳壓縮的固體存檔可以使存檔文件具有非常小的類似文件列表。例如,我有327個二進制文件的列表,文件大小從22 KB到453 KB,總共有47 MB​​不包括分區的簇大小。我可以將這327個相似但不相同的文件壓縮到僅有193 KB字典大小爲4 MB的RAR存檔中。這當然是一個巨大的縮小規模。

在閱讀關於固體存檔的幫助頁後,請點擊鏈接幫助頁面rarfiles.lst。它描述瞭如何控制文件以何種順序放入固定存檔。該文件位於WinRAR的程序文件夾中,當然也可以根據您的需求進行定製。

你必須照顧也即將選項文件來存儲無壓縮在使用GUI版本的WinRAR的情況。該選項可以在點擊標籤/命令添加在標籤文件後找到。有指定的文件類型,這些文件類型只存儲在壓縮文件中,而不進行任何壓縮,如* .png,* .jpg,* .zip,* .rar,...這些文件通常包含壓縮格式的數據,因此它不包含再次壓縮它們很有意義。但是,如果文件夾結構中存在重複的* .jpg並且創建了固定的歸檔文件,則從該選項中刪除所有文件擴展名是有意義的。

順便說一句:有喜歡總指揮官UltraFinder應用了UltraCompare和其他支持通過像相同的名稱和大小,或查找文件不同,用戶可選擇標準的重複文件搜索最安全,查找具有相同大小和相同內容的文件,並提供刪除重複項的功能。

1

嘗試eXdupe,它使用重複數據刪除和是如此之快,它實際上磁盤I/O密集型

2

重複的文件是否有相同的名稱?它們通常小於64 MB?那麼你應該按文件名(不帶路徑)進行排序,使用tar所有的順序文件的歸檔到一個.tar文件,然後使用xz壓縮做出.tar.xz壓縮歸檔。在.tar文件中相鄰的重複文件小於正在使用的xz壓縮級別的窗口大小應該幾乎不壓縮。您可以在this xz man page中查看字典大小,壓縮級別爲「DictSize」。它們的範圍從256 KB到64 MB。

+0

非常感謝!這幫助我將tar.gz壓縮文件從許多重複的html文件(名稱相同但目錄不同)從1 GB縮小到450 MB。 – haraldkl 2016-12-25 08:10:00

+0

從你的描述看來,壓縮應該比兩個因素好。 – 2016-12-25 14:35:03

+0

對不起,該存檔的另一大部分來自較大的二進制文件(無重複)。我沒有做任何進一步的調查,只是很樂意縮減數據以適應單張CD。乾杯! – haraldkl 2016-12-28 02:10:11

1

我認爲,我已經試過(在Windows)3個選項:

  1. 7zip的LZMA2壓縮與1536MB的字典大小
  2. WinRAR的 「實」 文件
  3. 7zip的WIM文件

我有10個文件夾與不同版本的網站(文件如.PHP的.html的.js的CSS.JPEG.SQL等)爲1GB的總大小(每個文件夾100Mb的平均值)。雖然標準7zip的或WinRAR的壓縮給我約400/500MB的的文件,這些選項分別(2)的100Mb &(3)170MB給我的(1)文件80MB

相關問題