當我嘗試在塊中添加列和修改頭名稱等時,出現'TypeError:'TextFileReader'對象不支持項目分配'的錯誤。修改大塊csv塊?
我的問題是我使用慢工作筆記本電腦來處理一個相當大的文件(1000萬行)。我想添加一些簡單的列(1或0值),連接兩列以創建唯一ID,更改其他列的dtype,並重命名某些標題,以便它們與稍後將合併的其他文件匹配。我可能可以拆分這個csv(也許選擇日期範圍和製作單獨的文件),但我想學習如何使用塊大小或一般處理大型文件,而不會遇到內存問題。是否可以修改文件塊,然後將它們連接在一起?
我正在做一個原始數據清理,然後將其加載到Tableau中進行可視化。
例(讀/修改1個千萬行):
> rep = pd.read_csv(r'C:\repeats.csv.gz',
> compression = 'gzip', parse_dates = True , usecols =
> ['etc','stuff','others','...'])
> rep.sort()
> rep['Total_Repeats'] = 1
> rep.rename(columns={'X':'Y'}, inplace = True)
> rep.rename(columns={'Z':'A'}, inplace = True)
> rep.rename(columns={'B':'C'}, inplace = True)
> rep['D']= rep['E'] + rep['C']
> rep.rename(columns={'L':'M'}, inplace = True)
> rep.rename(columns={'N':'O'}, inplace = True)
> rep.rename(columns={'S':'T'}, inplace = True)
你現在在做什麼?你能提供一些樣品模式嗎? – Scironic 2014-10-08 14:20:57
用示例編輯我的帖子。 – trench 2014-10-08 16:55:12