我試圖導入大型CSV數據集使用熊貓庫約4GB到蟒蛇。當然,數據集不能一次全部放入內存中,因此我使用大小爲10000的塊來讀取csv。 這個我想Concat的所有塊成一個單一的數據幀,以執行一些計算,但是我跑了內存後(我用16GB的RAM桌面)。 到目前爲止我的代碼: 閱讀CSV:進口大型數據集(4GB)在使用python熊貓
chunks = pd.read_csv("path_to_csv", iterator=True, chunksize=1000)
的毗連大塊:
pd.concat([chunk for chunk in chunks])
pd.concat(chunks, ignore_index=True)
我搜索計算器上的多線程和所有的人都認爲這些解決方案之一。有沒有辦法解決這個問題?我不敢相信我不能用16 GB的RAM來處理4 GB的數據集!
編輯:到目前爲止,我還沒有想出如何導入CSV文件中的任何解決方案。我通過將數據導入一個PostgreSQL和查詢數據庫
爲什麼不能一次填充DataFrame? – Elmex80s
假設內存問題,您是否嘗試過Dask或Apache Spark? –
不知道如何做到這一點..你能給我一個例子嗎? – lacrima