我有超過300個預測這兩者都是連續和分類一個大熊貓數據集。目標變量是分類的,值爲0或1.我將執行邏輯迴歸,我想使用scikit學習模塊的遞歸特徵選擇來獲取預測變量的候選列表。我知道如何在rfe.fit(x,y)函數中分配目標變量。我如何將所有其他變量分配給x矩陣?大熊貓數據和scikit學習
謝謝!
我有超過300個預測這兩者都是連續和分類一個大熊貓數據集。目標變量是分類的,值爲0或1.我將執行邏輯迴歸,我想使用scikit學習模塊的遞歸特徵選擇來獲取預測變量的候選列表。我知道如何在rfe.fit(x,y)函數中分配目標變量。我如何將所有其他變量分配給x矩陣?大熊貓數據和scikit學習
謝謝!
您可以使用df.drop()
as it is described here請記住,刪除列時,你應該設置axis=1
你說,你要使用scikit學習feature selector。
你通過輸入矩陣的特徵選擇(例如SelectKBest
),然後就可以在分類使用的新功能。
# X, y = your features and labels
sel = SelectKBest(chi2, k=2) # or any other feature selector
X_new = sel.fit_transform(X, y)
# clf = classifier of your choice
clf.fit(X_new, y)
你是指「將所有其他變量分配給x矩陣」是什麼意思?對於分類值,您已經有0或1.對於其他功能,您需要將它們歸一化,以使它們的值也落入[0,1]。那是你在找什麼? – pyan