2015-09-18 80 views
0

我正在嘗試使用r中的rpart包創建決策樹。爲了達到樹的最佳深度,我使用plotcp函數。當我使用printcp分析交叉驗證的結果,其他的細節中,我得到以下信息:修剪rpart樹

Root node error: 3599.8/14399 = 0.25

我的課是不平衡的(1-75級%,2-25級%)。那麼rpart似乎在做的是使用0.5的默認閾值。而且由於沒有一個節點對C2類的概率> 0.5,它們都被歸類爲C1。

我不可能指定概率閾值嗎?說,例如,如果C2的概率> 0.35,則將其歸類爲C2。

回答

0

,你得到的消息:

Root node error: 3599.8/14399 = 0.25 

是不是一個錯誤。它是'printcp'的標準輸出的一部分,它只是簡單地顯示數據中每次觀察的平均誤差。據推測,你有14,399觀察。如果您正在進行分類,那麼正在使用的錯誤度量可能是GINI。你的樹可能會很好 - 我們看不到,因爲你沒有發佈剩餘的CP表。

如果你正在使用分類(例如在你的公式的主題是一個因子,或者你已經使用書面方法='class'),那麼落入每個節點的觀察分類是根據多數。事實上,如果所有的葉節點都擁有同一類中的多數,那麼所有發送到樹中的東西都將根據該類進行分類。你可以看看使用權重來鼓勵不同的行爲。