0
將大型數據幀(50GB)拆分爲多個輸出(水平)的最佳/最簡單的方法是什麼?熊貓數據幀to_csv - 分成多個輸出文件
我想過做這樣的事情:
stepsize = int(1e8)
for id, i in enumerate(range(0,df.size,stepsize)):
start = i
end = i + stepsize-1 #neglect last row ...
df.ix[start:end].to_csv('/data/bs_'+str(id)+'.csv.out')
但我敢打賭,有一個聰明的解決辦法了嗎?
我認爲這可能是做你所問的最好的方式......但是這真的是你想要的去做?對於這種大小的數據,CSV的效率非常低,無論是使用的磁盤空間量還是讀/寫速度。我鼓勵你考慮一個更合適的格式來保存這樣一個大型數據集,例如[hdf5](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_hdf.html) 。 – jakevdp
@jakevdp,感謝您的評論。 Hdf5或我喜歡的:bcolz是更好的格式,你的是正確的。有時我的商業夥伴想要csvs ...: - / – PlagTag