0
我想分析兩個獨立變量(說x1和x2)對因變量(y二進制變量)的影響。 當我使用rpart或信息增益時,結果顯示x1比x2更重要。 (在x1上分割,而information.gain也大) 當我在y〜x1 + x2上使用glm時,結果顯示x2非常重要,x1不重要。任何人都可以幫助我解釋原因以及我應該使用哪一個?謝謝!樹和邏輯給出不同的結果
我想分析兩個獨立變量(說x1和x2)對因變量(y二進制變量)的影響。 當我使用rpart或信息增益時,結果顯示x1比x2更重要。 (在x1上分割,而information.gain也大) 當我在y〜x1 + x2上使用glm時,結果顯示x2非常重要,x1不重要。任何人都可以幫助我解釋原因以及我應該使用哪一個?謝謝!樹和邏輯給出不同的結果
因爲樹木和邏輯迴歸遵循不同的算法,所以它們完全有可能會給出不同的結果。
這通常意味着
x1
和x2
是相關x1
也不x2
是y
良好的預測。如果它們相關,則使用PCA或類似技術來減少它們之間的相關性。否則,使用哪一個取決於您的數據。您可以使用訓練測試集方法來確定哪種方法更適合並適合該模型。
只記得樹木很吵。隨機森林(randomForest包)可能是一個更好的模型。
這個問題似乎是題外話題,因爲它是關於統計方法和解釋,而不是編程,並已被標記爲遷移到交叉驗證。 – Thomas
一旦它被遷移到CrossValidated,您可能還想考慮編輯問題以添加更多信息(例如'summary()的結果' –