我想知道是否有某種最佳方法來壓縮具有數百萬行重複/重複順序的csv文件。每行有4-5個元素。只有幾百個獨特的行,但是因爲它們每個都出現很多次,所以文件的總體大小很大。重複行的csv文件的最佳壓縮
我不熟悉的工具如gzip,bzip2的,等使用的詳細交易算法,但我沿着是否有任何的方式來指示該模式的gzip或bzip2的線條思考。例如,如果我有100萬行a,b,c,d,e,那麼在內部,這可以最佳地表示爲abcde的條目,並且如果它重複的次數是數字的計數(例如,重複2 M次)。這比壓縮算法試圖壓縮abcdeabcdeabcde ...更爲優化。我正在尋找一種通用的方法來優化案例,例如數據處於排序表格格式幷包含重複的行/元組。
在此先感謝。