2017-03-22 47 views
0

我在使用rpart在R內運行一個簡單的決策樹時遇到了一些問題。r rpart只適用於整數而不是因素?得到一棵沒有深度的樹

由於機密性,我無法發佈我的實際數據,但這裏是結構。因爲我今天拿到了我的錫紙帽子,所以我已經填補了一大堆。

data structure

我已經運行的最基本的模型來預測基於MIX_BEFORE和生命階段MIX,我沒有得到一棵樹出來的結束。我試過使用rpart.control並指定minsplit,它沒有區別。

first tree results

即使當我在幾個變量添加我還沒有得到一棵樹: enter image description here

然而...第二我刪除因子變量,並試圖建立一個樹使用一個整數,它工作正常:

enter image description here

在所有的任何想法?

回答

0

您的數據具有相當強烈的班級不平衡:一級99%,另一級1%。所以rpart只要說所有事情都是大多數類別(這就是它所做的)就可以獲得99%的準確性。大多數變量都不能更好地進行區分,所以你可以像沒有分支那樣使用因子變量來樹木。您的_NBR變量恰好對_NBR> = 7的點數較少。但即使您使用_NBR的模型預測幾乎所有點都是多數類。你可以從This Cross Validated Post得到一些關於如何處理班級失衡問題的幫助。

相關問題