2016-12-09 121 views
4

是否可以將熊貓數據框直接保存到實木複合地板文件? 如果不是,建議的過程是什麼?Python:將熊貓數據框保存到實木複合地板文件

目的是爲了能夠將實木複合地板文件發送到另一個團隊,他們可以使用scala代碼來讀取/打開它。謝謝!

+0

其他團隊是使用Spark還是其他一些Scala工具?加載CSV是Spark非常微不足道 –

+0

如果你有'pyspark'你可以做這樣的事情(https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py) –

回答

6

有一個名爲fastparquet的包的相對較早的實現 - 它可能是您需要的一個很好的用例。

https://github.com/dask/fastparquet

conda install -c conda-forge fastparquet 

pip install fastparquet 

from fastparquet import write 
write('outfile.parq', df) 

,或者,如果你想使用一些文件的選項,比如排分組/壓縮:

write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000], compression='GZIP', file_scheme='hive') 
0

pyarrow具有用於存儲大熊貓支持數據框:

import pyarrow 

pyarrow.Table.from_pandas(dataset) 
0

熊貓有一個核心功能to_parquet()。只需將數據框寫入parquet格式,如下所示:

df.to_parquet('myfile.parquet') 
相關問題