我有一個數據集,每個樣本具有330個樣本和27個特徵,具有Logistic迴歸的二元類問題。執行具有大量特徵的Logistic迴歸?
根據「規則如果十」我需要包括每個功能至少10個事件。儘管如此,我有一個不平衡的數據集,其中20%爲正面類,80%爲負面類。
這給我只有70個事件,允許大約只有7/8特徵被包括在Logistic模型中。
我想評估所有的功能作爲預測,我不想手動選擇任何功能。
那麼你會建議什麼?我應該做所有可能的7個功能組合嗎?我是否應該僅使用關聯模型評估每個特徵,然後爲最終模型選擇最好的特徵?
我也很好奇處理分類和連續功能,我可以混合它們嗎?如果我有一個分類[0-1]和一個連續的[0-100],我應該正常化嗎?
你實際上可以在https://datascience.stackexchange.com/上發佈這個問題 –
我相信這個問題已經在那裏問過了,但沒有得到太多的關注。無論如何,這還不足以成爲複製它的好理由。這個問題是堆棧溢出的主題。 –