2013-07-30 102 views
4

我想加載一個csv文件(大約250 MB)作爲熊貓的數據框。在我的第一次嘗試中,我使用了典型的read_csv命令,但我收到了錯誤內存。 我曾嘗試在Large, persistent DataFrame in pandas使用塊中提​​到的方法:用熊貓加載大的CSV文件

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000) 
xx=pd.concat([chunk for chunk in x], ignore_index=True) 

但是當我試圖來連接,我收到以下錯誤:異常:「通過所有的對象都沒有」。事實上,我不能訪問我使用winpython 3.3.2.1大塊

與大熊貓0.11.0

+0

你解決了這個問題嗎?你升級到熊貓0.12.0嗎? – smci

+0

是的,我安裝了最後一個winpython 64位版本,它與my文件一起工作。我仍然需要測試更大的文件 – user2082695

回答

2

我建議你安裝winpython的64位版本的32位。然後,您應該可以毫無問題地加載250 MB文件。

0

我遲到了,但發佈代碼的實際問題是使用pd.concat([chunk for chunk in x])有效地取消了分塊的好處,因爲它將所有這些塊再次連接成一個大的DataFrame。
這可能甚至需要臨時兩倍的內存。