我有一個數據幀,我想要存儲和以後訪問高效。從各種論壇,我知道我應該使用to_pickle方法。但令我驚訝的是,這會進一步增加規模。方法to_pickle增加文件大小
df.to_csv('df.csv', sep='\t', mode="wb") ## 650 MB output file
df.to_pickle('df.pkl') ## 1.3 GB output file
我做錯了什麼?
編輯: 從評論中,似乎to_pickle不是用於生成較小的文件。在這種情況下,存儲它的最佳方式是什麼?它只有大多數列只有1s和0s的數值數據 - 大部分是稀疏的。
酸洗是你做的序列化,而不是壓縮。嘗試使用csv文件是多餘的。 – Cubic
您是否嘗試將hdf5與HDFStore一起存儲? – manu190466
如果需要,你可以用壓縮方法寫入一個csv,pickling是python對象的字符串表示形式 – EdChum