我有25000輛花車(,
分隔)文件,大約有10萬這樣的行。該文件的行看起來像:有效的方法來壓縮/串行/操縱大量數據的
1689.97,-9643.39,-82082.1,9776.09,-33974.84,-67247.38,32997.34,72811.53,31642.87,-949.6,9340.68,-85854.48,-17705.36,187.74,-3002.6,-35812.21,37382.32,22770.78,40893.09,45743.99,-6500.92,26243.85,13975.95,0,56669.47,-25865.36,-17066.78,26788.57,0,-36554.86,-3687.19,18933.93
我有一個2部分的問題。
- 有沒有一種方法(在Java或Python中)有效地壓縮數據而不影響性能。壓縮將每天進行一次,但數據必須經常讀取。
- 可以將數據在壓縮形式被操縱例如我想在沒有解壓縮的情況下聚集前10行的前10列。這樣我就不必擔心頻繁讀取壓縮數據。其中一個挑戰是將25,000個字符串轉換爲浮點數以便添加。
我看了看gzip
和zcat
,他們是不錯的選擇。但我想找到一些壓縮或序列化算法來存儲數據通過Java/Python
並執行讀取而不解壓縮。
Lookie:http://stackoverflow.com/questions/87679/advice-on-handling-large-data-volumes – David
該文件必須是一個ASCII文件,或者你可以考慮有一個二進制文件,而不是?浮標是單精度還是雙精度?如果它們是單精度的,那麼最簡單的事情就是將浮點數的二進制表示存儲在文件中。 – Bakuriu
要回復對問題所做的更改:1)標籤不屬於標題,因此「在java中」不應該在那裏提及。有一個標籤(和OP使用它)。另外,我給出的格式是正確的。 Op想要一個enumerand列表,現在已經有了,而且這個龐大的行必須顯示爲代碼。 – Bakuriu