簡單的事情,第一:瞭解在每個終端節點打印結果。考慮以下簡單的(不是特別有用)ctree
該模型停止dist
ANCE的cars
如何依賴於他們的speed
:
library("partykit")
ctree(dist ~ speed, data = cars)
##
## Model formula:
## dist ~ speed
##
## Fitted party:
## [1] root
## | [2] speed <= 17
## | | [3] speed <= 12: 18.200 (n = 15, err = 1176.4)
## | | [4] speed > 12: 39.750 (n = 16, err = 3535.0)
## | [5] speed > 17: 65.263 (n = 19, err = 9015.7)
##
## Number of inner nodes: 2
## Number of terminal nodes: 3
這意味着,例如,在節點5有其平均停止dist
19
觀察與speed > 17
ance爲65.263
,對應於err
或9015.7
的平方和。
因此,首先給出目標變量的均值(在n
和err
之前),並且是您最感興趣的。爲了最大化目標變量,您可以選擇具有最高預測均值的終端節點。
最後,我不知道直接致力於利潤最大化的樹方法。標準樹方法試圖以某種方式找到同質的終端節點。 (這裏的平均目標值近似不變)。
理想情況下,我想要一個場景,當一個特定的變量,5個屬性被拆分時。決策樹總結每個排列中的利潤,並將變量分成兩個桶,其中總和利潤的差異最大。有沒有這樣的功能? – Tammboy
然後循環遍歷每個變量以找到利潤最大化的變量。這將成爲節點1 ... – Tammboy
這需要更精確地提出以獲得可靠的答案。標準迴歸樹可能非常接近你想要做的 - 但也可能它是非常不同的。目前我不確定。 –