2016-05-13 102 views
0

當使用隨機森林迴歸器(或任何整體學習者)處理丟失的分類特徵值時,通用指南是什麼?我知道,scikit學習具有變形功能(像意味着...策略或接近度)來計算缺失值(數值)。但是,如何處理缺失的絕對價值:像行業(石油,電腦,汽車,),主要(學士,碩士,博士,)。在隨機森林迴歸器中處理丟失的分類特徵值的指導原則

任何建議表示讚賞。

+0

請注意,您已經聲明「有任何建議感謝」,並且有人實際回答了您。如果答案是有用的,你可以放棄或接受它;如果沒有,你可以通過解釋爲什麼不解釋來幫助海報。 –

回答

0

Breiman和卡特勒,隨機森林的發明者,提出了兩種可能的策略(見http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

隨機森林具有替換缺失值的方法有兩種。第一種方式 很快。如果第m個變量不是分類的,則該方法計算該類別j中該變量的所有值的中位數,然後使用該值替換 j中的第m個變量的所有缺失值。如果第m個變量是分類的,則替換是j類中最頻繁的非缺失值。這些替代值是 稱爲填充。

第二種替換缺失值的方法在計算上更昂貴,但性能比第一種更好,即使是大量缺失的數據也是如此。它僅在 訓練集中替換缺失值。它首先通過填寫 進行粗略和不準確的缺失值。然後它執行一次森林運行並計算近似值。

或者,讓你的標籤變量預留了一分鐘,你可以訓練上具有非空值有問題的分類變量行的分類,使用所有的功能在分辨。然後使用這個分類器來預測'測試集'中有問題的分類變量的值。擁有更完整的數據集,您現在可以返回爲原始標籤變量預測值的任務。