-1

我有一個數據集,每個樣本具有330個樣本和27個特徵,具有Logistic迴歸的二元類問題。執行具有大量特徵的Logistic迴歸?

根據「規則如果十」我需要包括每個功能至少10個事件。儘管如此,我有一個不平衡的數據集,其中20%爲正面類,80%爲負面類。

這給我只有70個事件,允許大約只有7/8特徵被包括在Logistic模型中。

我想評估所有的功能作爲預測,我不想手動選擇任何功能。

那麼你會建議什麼?我應該做所有可能的7個功能組合嗎?我是否應該僅使用關聯模型評估每個特徵,然後爲最終模型選擇最好的特徵?

我也很好奇處理分類和連續功能,我可以混合它們嗎?如果我有一個分類[0-1]和一個連續的[0-100],我應該正常化嗎?

+4

你實際上可以在https://datascience.stackexchange.com/上發佈這個問題 –

+0

我相信這個問題已經在那裏問過了,但沒有得到太多的關注。無論如何,這還不足以成爲複製它的好理由。這個問題是堆棧溢出的主題。 –

回答

0

你最好的選擇是使用L1正則化邏輯迴歸(又名Lasso迴歸)。如果你不熟悉它,算法會自動選擇一些功能,通過懲罰那些不會導致提高準確度的功能(以通俗的說法)。

您可以增加/減少這種正則化強度(它只是一個參數),直到您的模型在測試集或交叉驗證過程中達到最高精度(或其他度量標準)。

+0

嗨Stergios,在這種情況下,我想堅持標準的Logistic迴歸研究的原因,但我將包括LASSO在我未來的實驗。感謝您的反饋意見。 –

+1

你想做什麼?找到能提供最高精度的7/8功能?如果是這樣,你可以看看所有可能的組合(儘管這可能在資源和時間上太昂貴)。或者你可以運行LASSO並讓它選擇最好的功能。然後運行標準日誌。註冊。只使用這些功能。但是,這就像使用任何特徵選擇方法一樣。 – Stergios

+0

我想看看所有功能如何與結果相關,但我不想使用Logistic迴歸。如果我有足夠的事件,我只會將所有功能提供給模型,但不幸的是我沒有。我想使用Logistic迴歸,因爲這是使用的標準方法,我需要這個作爲比較度量。 –