我有一個數據幀X
它有兩個分類功能和41個數字功能。所以X
共有43個功能。熊貓:如何一個熱門編碼分類功能
現在,我想將分類特徵轉換爲數字水平,以便它們可以在RandomForest
分類器中使用。
我做了以下內容,其中0
和1
註明的類別特徵位置:
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
然後,我串連這兩個數據幀:
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
現在,Xnew
有63個特徵( F1
有18和F2
有4個功能,其餘41從X
)
這是正確的嗎?有沒有更好的方法來做同樣的事情?我是否需要刪除F1
和F2
中的第一列以避免共線?
我看到問題,請在http://stats.stackexchange.com/上提問, – Merlin
謝謝。這裏發佈http://stats.stackexchange.com/questions/232541/pandas-how-to-one-hot-encode-categorical-features –