1

我用sklearn創建了一個決策樹。決策樹有2個類似的節點

from sklearn import tree 
clf = tree.DecisionTreeClassifier(max_depth=3) 
clf = clf.fit(X, Y) 

參數在數據幀X是 - 'Company size''Industry_other''Account size''Country''Use case 1'

output from export_graphviz

什麼是獲得類似節點的原因:

試圖使用可視化的export_graphviz樹時,我得到2個類似的節點?我如何閱讀這棵樹?

+0

你有這個節點在同一級別,所以一切都OK。這隻意味着對於'Industry_Other'大於和小於0.5的'公司規模'('<= 1.5')的決定規則是相同的。 – m0nhawk

回答

1

爲了簡化說明,我會用字母來解釋它。你的樹是這個樣子:

A -> B 
| 
\-> C -> D -> F 
    |  \-> G 
    | 
     \-> E -> H 
      \-> I 

隨着A是您節點和DE你說的是類似的節點的節點。

在您的圖中,節點A分爲兩部分,BC。帶有Account size < 19969的數據樣本轉到C,否則轉到B

在到達C的樣品中,Industry other <= 1.5的樣品爲E,其他樣品爲D。這裏,ED看起來是相同的,因爲他們已經學習了相同的規則,但是該規則適用於不同的數據樣本。

這就是從那個到達E樣品,與company size < 1.5的那些去I和他人H,以及類似的東西應用到D

希望它更清楚,我沒有更多地混淆你。

本質上,他們已經學習了相同的規則,但將其應用於不同的樣本。換句話說,DE都知道,最好的規則是在兩組中分離到達它們的樣本是相同的。然而,到達它們的樣本具有不同的性質(準確地說,不同的Industry_other)。

它也可以以某種方式被理解爲Company_size有助於區分樣本而不管它們的Industry_other