2017-10-15 87 views

回答

1

如果您選擇/保持「最佳」,隨機樹會分割最相關的功能。

如果選擇「隨機」,樹要採取隨機功能,並把它分解。因此,您的樹可能會以更深或更低的精度結束。

你可以做一些試驗,並生成一個graphviz看出區別。例如,在下面的圖片上,分割X 1,然後X [0]。但是,如果你反其道而行,你最終可能會由拆分通過X [0],則X 1,並再次精確X [0]

enter image description here

編輯:作爲例子,你可以考慮高度/人的體重。

讓我們考慮人口高度的這樣的平均水平1m70,女性通常1m65和男人1m75。兩種重新分配都是重疊的。 對於體重來說,它更分離,女性在65公斤左右,而男性85公斤(曲線從不重疊)。

如果您隨機分割,則可以從特徵高度開始。這意味着你將在高度> 1m70處分裂。你最終會得到兩個包含男性和女性的團體。所以你必須按重量分割,說出它是男人還是女人。

如果您使用最好,您可以直接根據體重進行分類。

編輯2:如果你有一個特點百分之一集,「最好」也將採取最相關的功能。想象一下,你仍然想分類男人和女人,你也有在你的數據集的眼睛的顏色,瞳孔的大小等......這些都不相關,使用隨機可能會首先選擇他們。

對我來說,這個選項使得只有當你知道你所有的功能都與周圍相同的實力相關者的意義,如果你想節省一些計算時間(尋找最好的分裂可能會發生在某些情況下,時間)

我希望它能幫助,

+0

所以,如果讓我選擇「隨機」,基尼雜質或信息增益將不被計算出來的?因爲計算它們並使用「隨機」沒有任何意義,對嗎? –

+0

我想它會在以後計算,但不用於選擇最佳功能。 –

+0

這麼好的解釋....謝謝! –

1

「隨機」設定隨機選擇一個功能,然後將其分解爲隨機和計算基尼係數。它重複了很多次,比較所有的分割,然後採取最好的分割。

這有幾個優點:

  1. 它的計算小於在每片葉子計算每個功能的最佳分散密集。
  2. 它應該不太容易過度配合。
  3. 如果您的決策樹是集成方法的一個組件,則額外的隨機性很有用。
相關問題