0
我最近一直在使用RPART並遇到了一個我不明白的計算。Rpart改進得分與信息增益
在處理信息增益時,如何計算「改善」或變量重要性(它們似乎與我的測試相同)。
作爲一個虛擬的例子,我試着學習下表:
happy,class
yes,p
no,n
用命令:
fit <-rpart(class ~ happy,data=train,parms = list(split="information"),minsplit=0)
很簡單,並與根,然後將每個返回預期樹包含一個元素的葉子。
如果這變得令人困惑,那麼對於拆分給出的改進是1.386294。
我期望這裏的改進是1(從熵1到熵0),我錯過了什麼?
嗨格雷格,歡迎來到stackoverflow!請提供一個[可重現的例子](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),以便人們可以幫助你 –
嗨朱利安,我清理了對統計數據如何計算的原始後期總體見解也很受歡迎! – Greg
rpart是CART的一個實現。它使用GINI來決定節點分裂,而不是熵。 – G5W