2017-07-26 57 views
0

我想通過以下腳本使用熊貓創建數據透視表。由於分段故障導致大熊貓數據透視表破壞11

def analyzefile(file): 
     a = pd.read_csv(file,header=None,names=labels,engine='python') 
     df = pd.pivot_table(a,index=["STATE_SENATE_DISTRICT"], aggfunc='count',chunksize=300000) 
     writer = pd.ExcelWriter('zipBreakout.xlsx') 
     df.to_excel(writer, 'Sheet1') 
     writer.save() 

analyzefile('FilteredDistricts.csv') 

此代碼返回Segmentation fault: 11。應該指出的是,我正在使用的數據集相當大〜130萬個條目。有沒有辦法分塊數據,所以這不會發生?另外一個解

+0

一個建議從[這裏](https://stackoverflow.com/questions/32720514/segmentation-fault-11-during-pandas-to -csv-operation)是你有重複的條目,但我不知道這是否相關。在不相關的說明中,Excel允許的最大行數爲1,048,576,因此我不確定這是否會導致問題,或者文件是否可以打開。 – roganjosh

回答

0

等於pivot_table的另一個解決方案是groupby。真的不知道這是否會解決你的問題,但你可以嘗試:

df = a.groupby('STATE_SENATE_DISTRICT').count()