2017-07-04 92 views
-1

我正在使用python.Now使用多項Logistic迴歸來執行特徵選擇(在具有1,00,000行和32個特徵的數據集上),按順序選擇特徵的最有效方式是什麼爲多類目標變量(1,2,3,4,5,6,7)建立模型?python中的多類邏輯迴歸中的特徵選擇

+2

功能選擇是一個*巨大*的話題。我投票結束這個問題太廣泛。 –

+1

這看起來更像是一個統計問題,應該在。但要給你一些谷歌:你可以做一個套索選擇功能。但是,這是一個巨大的話題 –

+0

檢查在網絡上的boruta功能選擇[鏈接](https://github.com/scikit-learn-contrib/boruta_py)我已經嘗試過,它運作良好。它模仿sklearn界面,因此您可以使用它來選擇並應用分類器/迴歸器。但是,有很多特徵選擇/提取方法 – sera

回答

1

當然,有幾種方法可以選擇你的功能。但有時下一個簡單的方法可以幫助你。在線性模型的幫助下,您可以評估特徵的貢獻(通過對結果變量的潛在預測)。請注意,它主要適用於您懷疑您的功能與答案之間存在線性依賴關係的情況。

import statsmodels.formula.api as smf 

# Lottery here is Y, the fields from X are right of ~ 
mod = smf.ols(formula='Lottery ~ Literacy + Wealth + Region', data=df) 
res = mod.fit() 
print(res.summary()) 

OLS Regression Results        
============================================================================== 
Dep. Variable:    Lottery R-squared:      0.338 
Model:       OLS Adj. R-squared:     0.287 
Method:     Least Squares F-statistic:      6.636 
Date:    Tue, 28 Feb 2017 Prob (F-statistic):   1.07e-05 
Time:      21:36:08 Log-Likelihood:    -375.30 
No. Observations:     85 AIC:        764.6 
Df Residuals:      78 BIC:        781.7 
Df Model:       6           
Covariance Type:   nonrobust           
=============================================================================== 
        coef std err   t  P>|t|  [0.025  0.975] 
------------------------------------------------------------------------------- 
Intercept  38.6517  9.456  4.087  0.000  19.826  57.478 
Region[T.E] -15.4278  9.727  -1.586  0.117  -34.793  3.938 
Region[T.N] -10.0170  9.260  -1.082  0.283  -28.453  8.419 
Region[T.S] -4.5483  7.279  -0.625  0.534  -19.039  9.943 
Region[T.W] -10.0913  7.196  -1.402  0.165  -24.418  4.235 
Literacy  -0.1858  0.210  -0.886  0.378  -0.603  0.232 
Wealth   0.4515  0.103  4.390  0.000  0.247  0.656 
============================================================================== 
Omnibus:      3.049 Durbin-Watson:     1.785 
Prob(Omnibus):     0.218 Jarque-Bera (JB):    2.694 
Skew:       -0.340 Prob(JB):      0.260 
Kurtosis:      2.454 Cond. No.       371. 
============================================================================== 

R平方值越大,選擇的特徵組合越好,可以預測線性模型中的響應。如果他們可以預測線性模型,那麼我認爲,他們在更復雜的模型(如決策樹)中有更大的潛力。

請查看詳細信息下頁(請注意,一些額外的數據處理可能需要如果你的數據的錯誤異方差得到正確的結果): http://www.statsmodels.org/dev/example_formulas.html

當然,我建議您也可以爲您的功能建立配對圖。

這些方法不是很深,它們會引用相關性和您看到的內容,但有時(在不困難的情況下)是務實的。