0
我正在研究分類問題,在Python中使用邏輯迴歸模型(scikit learn)。我的特點之一是性別。在原始數據集中,這個變量是一個字符串(男,女)。我使用了熊貓的get_dummies方法,並創建了2個具有0,1值的列。每個班級一個。2個類別的虛擬變量。它應該是單列還是多列?
我的問題是,我應該使用2個不同的列,還是像男性(0,1)這樣的單個列?
我正在研究分類問題,在Python中使用邏輯迴歸模型(scikit learn)。我的特點之一是性別。在原始數據集中,這個變量是一個字符串(男,女)。我使用了熊貓的get_dummies方法,並創建了2個具有0,1值的列。每個班級一個。2個類別的虛擬變量。它應該是單列還是多列?
我的問題是,我應該使用2個不同的列,還是像男性(0,1)這樣的單個列?
我個人喜歡對n
類別的字段使用n - 1
列。當使用get_dummies
方法時,這意味着將drop_first
設置爲True。
至於爲什麼我喜歡這樣做;我的一位前教練在他對one hot encoding vs dummy encoding in sckikit learn的回答中解釋得非常好。基本上歸結爲消除共線性。