我使用h2o軟件包來創建randomForest迴歸模型。我對變量重要性有一些問題。我正在創建的模型就在這裏。一切正常。h2o隨機變量重要性
某些變量是數字,但有些是分類的。
RandomForest <- h2o.randomForest(x = c("Year", "Month", "Day", "Time", "Show", "Gen",
"D", "Lead"), y = "Ratio", data = data.hex, importance=T, stat.type = "GINI",
ntree = 50, depth = 50, nodesize = 5, oobee = T, classification = FALSE, type = "BigData")
但是,當我想查看變量重要性時,輸出如下所示。
Classification: FALSE
Number of trees: 50
Tree statistics:
Min. Max. Mean.
Depth 30 40 33.26
Leaves 20627 21450 21130.24
Variable importance:
Year Month Day Time Show Gen D Lead
Relative importance 20536.64 77821.76 26742.55 67476.75 283447.3 60651.24 87440.38 3658.625
Standard Deviation NA NA NA NA NA NA NA NA
Z-Scores NA NA NA NA NA NA NA NA
Overall Mean-squared Error:
我想知道的是: 1)爲什麼有可能是NA值。 2)實際相對重要性是什麼意思。它不應該介於1到100之間嗎? 3)爲什麼輸出中沒有混淆矩陣?
感謝您的幫助!
你的結果('y')變量是否連續?輸出狀態爲「Classification:FALSE」。混淆矩陣僅適用於分類結果變量。 – eipi10