一種決策樹算法，用於將分類變量的許多級別分爲兩組

我有一個文件，其中包含有關客戶違約貸款的數據或不是。這個文件中有很多變量。一個這樣的變量是「customer.employername」。這個變量有大約1000多個客戶的僱主名稱的唯一值。我想在邏輯迴歸模型中使用這個變量，我想要預測誰是違約者或非違約者，但由於該變量具有如此多的分類值，因此很難爲這些級別中的每個級別創建虛擬變量。爲此，我想在R中提出一個決策樹算法，在該算法中，我可以將此「customer.employername」變量的所有級別分爲兩組 - 第1組（包含所有違約客戶的僱主名稱）和第2組（包括那些未違約的客戶的所有僱主名稱）。任何人都可以請建議我這個所需的算法編碼？預期感謝一種決策樹算法，用於將分類變量的許多級別分爲兩組

來源

2017-03-27 Rookie

您可能會考慮RandomForest。實際上，基於決策樹的隨機森林是，但不是有1個決策樹，而是增長一個決策樹森林以達到給定的目標值，但是您需要更換。因此，不是製作1棵樹，而是通過替換引導數據集來製作數百個樹。根據我的經驗，RandomForest與分類或連續變量或兩者的組合起着非常好的作用。一般來說，我通常也會得到非常可重複的結果。此外，該方法在R中得到很好的支持，並提供了許多庫。

來源

2017-03-27 14:09:51 SeldomSeenSlim

我會研究它。我正在嘗試使用rpart函數來解決這個問題，但由於我對R並不陌生，因此獲得結果有點費時。 – Rookie

從某種意義上說，'Rpart'和'RandomForest'之間沒有太大的區別，因爲它們都是構建樹來預測的。 RF最大的優勢在於您正在構建許多樹，並進行替換。我真正喜歡RF的一個原因是，如果你有幾個自動相關的變量也是強預測因子，那麼RF不太可能過度使用。只運行一個森林會讓你處於嚴重的危險之中，這取決於你隨之而來的任何樹木結構。像Rpart那樣想RF，但多次引導。 – SeldomSeenSlim

一種決策樹算法，用於將分類變量的許多級別分爲兩組

回答

相關問題