我有一個文件,其中包含有關客戶違約貸款的數據或不是。這個文件中有很多變量。一個這樣的變量是「customer.employername」。這個變量有大約1000多個客戶的僱主名稱的唯一值。我想在邏輯迴歸模型中使用這個變量,我想要預測誰是違約者或非違約者,但由於該變量具有如此多的分類值,因此很難爲這些級別中的每個級別創建虛擬變量。爲此,我想在R中提出一個決策樹算法,在該算法中,我可以將此「customer.employername」變量的所有級別分爲兩組 - 第1組(包含所有違約客戶的僱主名稱)和第2組(包括那些未違約的客戶的所有僱主名稱)。任何人都可以請建議我這個所需的算法編碼?預期感謝一種決策樹算法,用於將分類變量的許多級別分爲兩組
0
A
回答
0
您可能會考慮RandomForest
。實際上,基於決策樹的隨機森林是,但不是有1個決策樹,而是增長一個決策樹森林以達到給定的目標值,但是您需要更換。因此,不是製作1棵樹,而是通過替換引導數據集來製作數百個樹。根據我的經驗,RandomForest
與分類或連續變量或兩者的組合起着非常好的作用。一般來說,我通常也會得到非常可重複的結果。此外,該方法在R中得到很好的支持,並提供了許多庫。
相關問題
- 1. 帶分類變量的Spark決策樹
- 2. 隨機決策樹分類
- 3. 關於從命令行顯示分類/決策樹的方法?
- 4. 當不以規則爲基礎的分類優於決策樹?
- 5. 完美的決策樹分類
- 6. 決策樹的文檔分類
- 7. 多變量決策樹學習
- 8. 決策樹在樹決策中保持使用Y變量
- 9. SKLearn決策樹分類深度/訂購
- 10. 傳遞分類數據Sklearn決策樹
- 11. 使用scikit的多輸出分類決策樹
- 12. 如何將我的決策樹分類器變爲手動過程?
- 13. Jquery Datatables分組插件 - 兩種級別分組可擴展的方法?
- 14. 構建一個算法決策樹
- 15. 如何分割CART決策樹算法中的連續屬性?
- 16. 如何創建多級分類層級(類別樹) - 笨
- 17. 如何處理決策樹中的多個分類特徵?
- 18. 什麼是決策樹中的多元分類?
- 19. 處理決策樹的分類特徵的策略?
- 20. javascript將分層樹分解爲所有子樹,並按其級別分組每個子樹的節點
- 21. weka中的多級分類變量
- 22. 如何在SQL中將兩個類別分組爲一個組
- 23. 將分類變量重新分類爲另一個分類變量?
- 24. 拓撲分類變種算法
- 25. 遞歸排序算法的決策樹
- 26. 用多種組合分配變量的最佳方法
- 27. 決策樹組件
- 28. 文字分類方法? SVM和決策樹
- 29. 在特定分組級別計算非加法度量MDX
- 30. 如何獲得分類變量的部分級別?
我會研究它。我正在嘗試使用rpart函數來解決這個問題,但由於我對R並不陌生,因此獲得結果有點費時。 – Rookie
從某種意義上說,'Rpart'和'RandomForest'之間沒有太大的區別,因爲它們都是構建樹來預測的。 RF最大的優勢在於您正在構建許多樹,並進行替換。我真正喜歡RF的一個原因是,如果你有幾個自動相關的變量也是強預測因子,那麼RF不太可能過度使用。只運行一個森林會讓你處於嚴重的危險之中,這取決於你隨之而來的任何樹木結構。像Rpart那樣想RF,但多次引導。 – SeldomSeenSlim