2017-04-07 18 views
0

什麼分別爲.RDS格式known from RPython大熊貓DataFrame最接近的吊墜/替代?的Python和熊貓:吊墜爲R/dplyr .rds格式

我試過to_pickle()DataFrame documentation中列出,但它缺少屬性小於相應.csv文件持有相同的內容。

df = pd.get_dummies(pd.Series(list('abca'))) 
df.to_csv("tmp.csv")  # 44 Bytes 
df.to_pickle("tmp.pickle") # 682 Bytes 

我在尋找快速壓縮(保存比較來.CSV磁盤空間)的方式(時間寫作和閱讀比較,以.CSV保存)至(反)序列熊貓DataFrame秒。

謝謝。

回答

0

熊貓可以輸出到HDF5,比CSV更快更緊湊。有時混合類型存在問題,但這些問題也存在於CSV中。

您還必須小心比較文件大小與小數據集。對於較小的數據集,壓縮的開銷可能會使文件變大