我想訓練一個迴歸模型,爲了做到這一點,我使用了隨機森林模型。但是,我還需要做特徵選擇,因爲我的數據集中有很多特徵,如果我使用了所有特徵,那麼我會過度擬合。爲了評估我的模型的性能,我還進行了5次交叉驗證,我對這兩種方法的問題是正確的,爲什麼?功能選擇和交叉驗證
1-我應該將數據分成兩半,在上半年做功能選擇,並使用這些選定的功能在剩下的一半上進行5次交叉驗證(CV)(在這種情況下,5個CV將精確地使用相同的選定功能)。
2-執行以下程序:
1-數據分割成4/5的培訓和1/5用於測試 2-分割此訓練數據(完整的數據的4/5)到兩半: a-)在上半年訓練模型,並使用訓練的模型做特徵選擇。 b)使用第一部分中選定的特徵,以便在訓練數據集的後半部分訓練模型(這將是我們最終的訓練模型)。 3-對剩餘的1/5數據(在訓練階段從未使用)測試模型的性能 4-重複上一步5次,並且在每次我們隨機(無替換)地分割數據分成4/5進行訓練和1/5進行測試
我唯一擔心的是在第二個程序中我們將有5個模型,最終模型的特徵將是這五個模型的頂級特徵的結合,所以我不確定5CV的性能是否可以反映最終模型的最終性能,特別是因爲最終模型具有與5倍中的每個模型不同的特徵(因爲它是每個模型的選定特徵的結合5 CV)