2016-04-27 100 views
3

使用着名的Iris數據集和Julia決策樹分類器,我得到以下樹。解釋決策樹中的數字

using RDatasets 
using DecisionTree 
iris = dataset("datasets", "iris") 
features = convert(Array, iris[:, 1:4]) 
labels = convert(Array, iris[:, 5]); 
model = build_tree(labels, features) 
model = prune_tree(model, 0.9) 

print_tree(model) 
Feature 3, Threshold 3.0 
L-> setosa : 50/50 
R-> Feature 4, Threshold 1.8 
    L-> Feature 3, Threshold 5.0 
     L-> versicolor : 47/48 
     R-> Feature 4, Threshold 1.6 
      L-> virginica : 3/3 
      R-> Feature 1, Threshold 7.2 
       L-> versicolor : 2/2 
       R-> virginica : 1/1 
    R-> Feature 3, Threshold 4.9 
     L-> Feature 1, Threshold 6.0 
      L-> versicolor : 1/1 
      R-> virginica : 2/2 
     R-> virginica : 43/43 

我不能真正解釋一些分支後的數字,比如「setosa:50/50」或「virginica:3/3」。

有人能解釋一下那些是什麼意思嗎?

回答

1

它看起來像,關於節點「setosa:50/50」 50花朵被正確地分類(50個花朵被變成這個節點和50是setosa) 雲芝:47/48意味着它們中的一個是錦葵或setosa 。