2014-03-04 46 views
0

我想分析兩個獨立變量(說x1和x2)對因變量(y二進制變量)的影響。 當我使用rpart或信息增益時,結果顯示x1比x2更重要。 (在x1上分割,而information.gain也大) 當我在y〜x1 + x2上使用glm時,結果顯示x2非常重要,x1不重要。任何人都可以幫助我解釋原因以及我應該使用哪一個?謝謝!樹和邏輯給出不同的結果

+5

這個問題似乎是題外話題,因爲它是關於統計方法和解釋,而不是編程,並已被標記爲遷移到交叉驗證。 – Thomas

+0

一旦它被遷移到CrossValidated,您可能還想考慮編輯問題以添加更多信息(例如'summary()的結果' –

回答

1

因爲樹木和邏輯迴歸遵循不同的算法,所以它們完全有可能會給出不同的結果。

這通常意味着

  1. x1x2是相關
  2. 無論x1也不x2y良好的預測。

如果它們相關,則使用PCA或類似技術來減少它們之間的相關性。否則,使用哪一個取決於您的數據。您可以使用訓練測試集方法來確定哪種方法更適合並適合該模型。

只記得樹木很吵。隨機森林(randomForest包)可能是一個更好的模型。

相關問題