2017-04-05 47 views
-1

我想用Scikit-learn工具使用Logistic迴歸來做一些預測任務。Scikit-learn中Logistic迴歸的編碼方法

赫斯是我的任務的兩個示例特點:

特點:1(男人,女人,不明)---分類變量

特點2(點擊數)---連續可變

我不知道在向Logistic迴歸輸入數據時如何編碼功能。

我應該使用1,2和3表示分類變量男人,女人和不明,或使用(1,0,0),(0,1,0),(0,0, 1)來代表他們,當我使用Scikit學習的邏輯迴歸?那連續變量呢?

+2

對於分類變量,如果它不代表您的情況下的任何基礎訂單,則始終使用單熱編碼。對於連續變量,它們已經在數字中,所以不需要做任何事情 –

回答

1

功能2你應該保留它,因爲你有它。

功能1有點棘手。處理丟失的數據時,您可以刪除整行或嘗試將值推算到該功能。我建議您閱讀Scikit-Learn文檔中的Imputing missing values before building an estimator。這將向您展示一個輸入數據並測試您的預測正在改進的例子。如果你插入數據,試着爲已經插入數據的行添加一個虛擬變量,我已經成功地應用了這個規範。