是否可以在分塊數據上使用DictVectorizer？

我想使用python熊貓csv閱讀器導入分塊數據，以克服內存錯誤，並使用DicVectorizer將字符串轉換爲浮動dtypes。但是我可以看到兩個不同的字符串在轉換後具有相同的代碼。我們有替代/選項來對分塊數據進行數據類型轉換嗎？是否可以在分塊數據上使用DictVectorizer？

在Pandas 0.19中，您可以在read_csv中將列聲明爲Categorial。見documentaion。

所以作爲文檔的例子，你可以這樣鍵入您的CSV名爲col1柱，減少內存佔用：

pd.read_csv(StringIO(data), dtype={'col1': 'category'})

2016-10-18 04:24:23 Boud

在這種情況下，是不是好的，如果兩個不同的列的兩個不同的字符串有相同的代碼？ –

通過構造分類，兩個不同的字符串有兩個不同的代碼。在任何情況下，分類的目標都是您操縱數據，因爲字符串和代碼都隱藏在場景後面並用於性能。你不應該擔心這個 – Boud

好的..謝謝..... –

回答