在隨機森林迴歸器中處理丟失的分類特徵值的指導原則

當使用隨機森林迴歸器（或任何整體學習者）處理丟失的分類特徵值時，通用指南是什麼？我知道，scikit學習具有變形功能（像意味着...策略或接近度）來計算缺失值（數值）。但是，如何處理缺失的絕對價值：像行業（石油，電腦，汽車，無），主要（學士，碩士，博士，無）。在隨機森林迴歸器中處理丟失的分類特徵值的指導原則

任何建議表示讚賞。

來源

2016-05-13 user1717931

請注意，您已經聲明「有任何建議感謝」，並且有人實際回答了您。如果答案是有用的，你可以放棄或接受它;如果沒有，你可以通過解釋爲什麼不解釋來幫助海報。 –

Breiman和卡特勒，隨機森林的發明者，提出了兩種可能的策略（見http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1）：

隨機森林具有替換缺失值的方法有兩種。第一種方式很快。如果第m個變量不是分類的，則該方法計算該類別j中該變量的所有值的中位數，然後使用該值替換 j中的第m個變量的所有缺失值。如果第m個變量是分類的，則替換是j類中最頻繁的非缺失值。這些替代值是稱爲填充。

第二種替換缺失值的方法在計算上更昂貴，但性能比第一種更好，即使是大量缺失的數據也是如此。它僅在訓練集中替換缺失值。它首先通過填寫進行粗略和不準確的缺失值。然後它執行一次森林運行並計算近似值。

或者，讓你的標籤變量預留了一分鐘，你可以訓練上具有非空值有問題的分類變量行的分類，使用所有的功能在分辨。然後使用這個分類器來預測'測試集'中有問題的分類變量的值。擁有更完整的數據集，您現在可以返回爲原始標籤變量預測值的任務。

來源

2016-05-14 10:55:15 user6275647

在隨機森林迴歸器中處理丟失的分類特徵值的指導原則

回答

相關問題