2009-09-03 53 views
1

這甚至有可能嗎?我有一個包含約1500個條目的訓練數據集。 randomForest創建了它的決策規則,並將它們應用於隨機選擇的(從原始數據集)Out of Bag訓練樣本(自舉10,000次)。我有一個單獨的(未分類的)數據集,我想將這10,000個創建的樹應用於預測這些新條目的分類。是否有一種簡單的方法將底層的林木索引到這個新的未分類數據集?如何將從R包randomForest創建的底層決策規則應用到NEW Out of Bag測試集上?

回答

3

看看最大的庫恩的caret這是專門支持這個:分類和迴歸培訓根據其標題。

它環繞隨機森林以及許多其他包,並有充足的文件,包括這JSS paper

而且插入符號,你當然可以只使用predict方法你總是返回從幫助頁面這個例子中,模型表明:

data(iris) 
set.seed(111) 
ind <- sample(2, nrow(iris), replace = TRUE, prob=c(0.8, 0.2)) 
iris.rf <- randomForest(Species ~ ., data=iris[ind == 1,]) 
iris.pred <- predict(iris.rf, iris[ind == 2,]) 
table(observed = iris[ind==2, "Species"], predicted = iris.pred) 

而不是使用ind隨機抽樣的,剛子集數據將自己納入培訓和驗證集。