我正在使用ramdomForest
包創建一個隨機森林模型。 5月份的數據集龐大,超過一百萬個200多個變量的觀測值。在用樣本數據訓練隨機森林時,我無法捕獲所有變量的所有因子水平。如何在predict.randomForest中自動排除看不見的新因子水平?
因此,當使用predict()
預測驗證集時,它將引發錯誤,因爲存在新的因子級別,這些級別在訓練數據中未捕獲。
一種解決方案是確保訓練數據變量包含所有因子水平。但事實證明這是非常乏味的,我並不需要所有的因素水平。
在randomForest包中運行predict()
時,是否存在自動排除包含以前未識別因子水平的驗證集中的觀察值的方法?在CRAN文件中可以找到任何爭論。我不認爲我可以爲此創造一個可重現的例子。
但是,您如何預測培訓中不存在的水平? – 2015-09-28 06:19:25
我不介意排除極低頻出現的某些水平的觀測值。我可以在預測的時候忽略那部分數據。 – Gaurav