是否可以將熊貓數據框直接保存到實木複合地板文件? 如果不是,建議的過程是什麼?Python:將熊貓數據框保存到實木複合地板文件
目的是爲了能夠將實木複合地板文件發送到另一個團隊,他們可以使用scala代碼來讀取/打開它。謝謝!
是否可以將熊貓數據框直接保存到實木複合地板文件? 如果不是,建議的過程是什麼?Python:將熊貓數據框保存到實木複合地板文件
目的是爲了能夠將實木複合地板文件發送到另一個團隊,他們可以使用scala代碼來讀取/打開它。謝謝!
有一個名爲fastparquet的包的相對較早的實現 - 它可能是您需要的一個很好的用例。
https://github.com/dask/fastparquet
conda install -c conda-forge fastparquet
或
pip install fastparquet
from fastparquet import write
write('outfile.parq', df)
,或者,如果你想使用一些文件的選項,比如排分組/壓縮:
write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000], compression='GZIP', file_scheme='hive')
pyarrow具有用於存儲大熊貓支持數據框:
import pyarrow
pyarrow.Table.from_pandas(dataset)
熊貓有一個核心功能to_parquet()
。只需將數據框寫入parquet格式,如下所示:
df.to_parquet('myfile.parquet')
其他團隊是使用Spark還是其他一些Scala工具?加載CSV是Spark非常微不足道 –
如果你有'pyspark'你可以做這樣的事情(https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py) –