如何將Python中的列類型從int更改爲sklearn的對象？

我對Python和scikit-learn（sklearn）非常陌生，我試圖加載這個由7列屬性和1列數據分類（類/數據目標）組成的數據集。但是有一個屬性由數據[1,2,3,4,5]組成，它實際上標誌着某個事物的某個階段，因此使它成爲一個名義數字，而不是數字。但是，當然python將它識別爲一個數值數據（int64），實際上我希望它被當作一個標稱數據（對象）。如何將列類型更改爲標稱值？如何將Python中的列類型從int更改爲sklearn的對象？

我做了以下工作。

print(data.dtypes) 
data["col_name"]=data["col_name"].astype(numpy.object) 
print(data.dtypes)

在第一次印刷，它仍然承認我的數據[「COL_NAME」] Int64形式，但astype行後，它已經改變了它object。但它對數據沒有任何影響，因爲當我嘗試使用matplotlib並創建直方圖時，它仍然將X和Y都識別爲數字而不是對象。

另外我已閱讀關於文檔One Hot Encoding和Label Encoding的文檔，但我認爲它們不是我需要的。我想知道我是否誤解了某些東西，或者有其他解決方案。

謝謝

來源

2016-12-18 Anna RG

閱讀sklearn的文檔。這個軟件包有詳盡的文檔。特別是Preprocessing section on encoding categorical features：

在問候保持在整數數組表示類別特徵，即[1,2,3,4,5]，我們有這樣的：

這種整數表示不能直接與用來scikit學習估計，因爲這些需要連續輸入，並且將類別解釋爲被排序，這通常是不期望的（即，瀏覽器的集合被任意排序）。將分類特徵轉換爲可與scikit-learn 估算器一起使用的特徵的一種可能性是使用OneHotEncoder中實現的一個K或一個熱門編碼，即。該估計器將每個分類特徵轉換爲m個可能的值爲m個二元特徵，只有一個有效。

所以你可以做的是使用one-hot encoding將你的數組轉換成5個新列（這種情況下，因爲你有5個可能的值）。

以下是一些工作代碼。輸入是明確的參數[1,2,3,4,5]的一列，所述輸出中是一個矩陣，5列，1爲每個5點可能的選擇的：

from sklearn.preprocessing import OneHotEncoder 

enc = OneHotEncoder() 
enc.fit([[1],[2],[3],[4],[5]]) 
OneHotEncoder(categorical_features='all', dtype='numpy.float64', handle_unknown='error', n_values='auto', sparse=True) 
print enc.transform([[1],[2],[3],[4],[5]]).toarray()

輸出：

[[ 1. 0. 0. 0. 0.] 
[ 0. 1. 0. 0. 0.] 
[ 0. 0. 1. 0. 0.] 
[ 0. 0. 0. 1. 0.] 
[ 0. 0. 0. 0. 1.]]

說出您的分類參數在此訂單：[1,3,2,5,4,3,2,1,3,4,2]。你會得到這個輸出：

[[ 1. 0. 0. 0. 0.] 
[ 0. 0. 1. 0. 0.] 
[ 0. 1. 0. 0. 0.] 
[ 0. 0. 0. 0. 1.] 
[ 0. 0. 0. 1. 0.] 
[ 0. 0. 1. 0. 0.] 
[ 0. 1. 0. 0. 0.] 
[ 1. 0. 0. 0. 0.] 
[ 0. 0. 1. 0. 0.] 
[ 0. 0. 0. 1. 0.] 
[ 0. 1. 0. 0. 0.]]

因此，這1列將轉換爲5列。

來源

2016-12-18 16:29:07

嘿，對於遲到的回覆抱歉，我沒有注意到我有一個新的答案。我想試試你的解決方案，但後來我發現data ['class'] = data ['class']。astype（str）'已經工作了，python已經將類列識別爲一個字符串（對象）。我認爲對我來說就足夠了，因爲它是一個班級，而不是一個屬性。但如果我將來遇到類似問題，我會記住您的解決方案。不管怎麼說，還是要謝謝你。 –

如何將Python中的列類型從int更改爲sklearn的對象？

回答

相關問題