2015-05-13 57 views
2

我使用h2o軟件包來創建randomForest迴歸模型。我對變量重要性有一些問題。我正在創建的模型就在這裏。一切正常。h2o隨機變量重要性

某些變量是數字,但有些是分類的。

RandomForest <- h2o.randomForest(x = c("Year", "Month", "Day", "Time", "Show", "Gen", 
            "D", "Lead"), y = "Ratio", data = data.hex, importance=T, stat.type = "GINI", 
          ntree = 50, depth = 50, nodesize = 5, oobee = T, classification = FALSE, type = "BigData") 

但是,當我想查看變量重要性時,輸出如下所示。

Classification: FALSE 
Number of trees: 50 
Tree statistics: 
     Min. Max. Mean. 
Depth  30 40 33.26 
Leaves 20627 21450 21130.24 


Variable importance: 
         Year Month  Day  Time Show Gen   D Lead 
Relative importance 20536.64 77821.76 26742.55 67476.75 283447.3 60651.24 87440.38 3658.625 
Standard Deviation  NA  NA  NA  NA  NA  NA  NA  NA 
Z-Scores     NA  NA  NA  NA  NA  NA  NA  NA 

Overall Mean-squared Error: 

我想知道的是: 1)爲什麼有可能是NA值。 2)實際相對重要性是什麼意思。它不應該介於1到100之間嗎? 3)爲什麼輸出中沒有混淆矩陣?

感謝您的幫助!

+0

你的結果('y')變量是否連續?輸出狀態爲「Classification:FALSE」。混淆矩陣僅適用於分類結果變量。 – eipi10

回答

4

首先,我會推薦下載最新版本的H20-3。這可能會解決您獲得標準差的NA值的問題。 相對重要性量化特定預測因子對其他個體預測因子在預測響應變量中所做貢獻。您可能會考慮的數字需要在1到100之間,這是重要性。 最後,你在輸出中沒有得到混淆矩陣的原因是你有一個迴歸模型而不是分類模型。混淆矩陣只能用於分類模型。

您可以通過運行下面的命令R中運行一個隨機森林例如:

library(h2o) 
conn <- h2o.init() 
demo(h2o.randomForest) 

然後,您可以通過執行看到你的困惑矩陣/相對和縮放重要性表如下:

> h2o.confusionMatrix(iris.rf) 
Confusion Matrix - (vertical: actual; across: predicted): 
       Iris-setosa Iris-versicolor Iris-virginica Error  Rate 
Iris-setosa  50.000000  0.000000  0.000000 0.0000 = 0/50 
Iris-versicolor 0.000000  47.000000  3.000000 0.0600 = 3/50 
Iris-virginica  0.000000  6.000000  44.000000 0.1200 = 6/50 
Totals   50.000000  53.000000  47.000000 0.0600 = 9/150 
> h2o.varimp(iris.rf) 
Variable Importances: 
    variable relative_importance scaled_importance percentage 
1 petal_len   1926.421509   1.000000 0.445738 
2 petal_wid   1756.277710   0.911679 0.406370 
3 sepal_len   493.782562   0.256321 0.114252 
4 sepal_wid   145.390717   0.075472 0.033641 

謝謝,希望這有助於!

+0

相對重要性告訴你什麼?較高的值是否意味着該變量對預測目標變量相對於其他變量的貢獻最大?或者反之亦然?那麼,在你的例子中,petal_len的相對重要性id更高,這是否意味着它是最重要的? – user3664020