2016-10-18 38 views
2

我想使用python熊貓csv閱讀器導入分塊數據,以克服內存錯誤,並使用DicVectorizer將字符串轉換爲浮動dtypes。但是我可以看到兩個不同的字符串在轉換後具有相同的代碼。我們有替代/選項來對分塊數據進行數據類型轉換嗎?是否可以在分塊數據上使用DictVectorizer?

回答

2

在Pandas 0.19中,您可以在read_csv中將列聲明爲Categorial。見documentaion

所以作爲文檔的例子,你可以這樣鍵入您的CSV名爲col1柱,減少內存佔用:

pd.read_csv(StringIO(data), dtype={'col1': 'category'}) 
+0

在這種情況下,是不是好的,如果兩個不同的列的兩個不同的字符串有相同的代碼? –

+1

通過構造分類,兩個不同的字符串有兩個不同的代碼。在任何情況下,分類的目標都是您操縱數據,因爲字符串和代碼都隱藏在場景後面並用於性能。你不應該擔心這個 – Boud

+0

好的..謝謝..... –

相關問題