2017-03-27 37 views
0

我有一個文件,其中包含有關客戶違約貸款的數據或不是。這個文件中有很多變量。一個這樣的變量是「customer.employername」。這個變量有大約1000多個客戶的僱主名稱的唯一值。我想在邏輯迴歸模型中使用這個變量,我想要預測誰是違約者或非違約者,但由於該變量具有如此多的分類值,因此很難爲這些級別中的每個級別創建虛擬變量。爲此,我想在R中提出一個決策樹算法,在該算法中,我可以將此「customer.employername」變量的所有級別分爲兩組 - 第1組(包含所有違約客戶的僱主名稱)和第2組(包括那些未違約的客戶的所有僱主名稱)。任何人都可以請建議我這個所需的算法編碼?預期感謝一種決策樹算法,用於將分類變量的許多級別分爲兩組

回答

0

您可能會考慮RandomForest。實際上,基於決策樹的隨機森林,但不是有1個決策樹,而是增長一個決策樹森林以達到給定的目標值,但是您需要更換。因此,不是製作1棵樹,而是通過替換引導數據集來製作數百個樹。根據我的經驗,RandomForest與分類或連續變量或兩者的組合起着非常好的作用。一般來說,我通常也會得到非常可重複的結果。此外,該方法在R中得到很好的支持,並提供了許多庫。

+0

我會研究它。我正在嘗試使用rpart函數來解決這個問題,但由於我對R並不陌生,因此獲得結果有點費時。 – Rookie

+0

從某種意義上說,'Rpart'和'RandomForest'之間沒有太大的區別,因爲它們都是構建樹來預測的。 RF最大的優勢在於您正在構建許多樹,並進行替換。我真正喜歡RF的一個原因是,如果你有幾個自動相關的變量也是強預測因子,那麼RF不太可能過度使用。只運行一個森林會讓你處於嚴重的危險之中,這取決於你隨之而來的任何樹木結構。像Rpart那樣想RF,但多次引導。 – SeldomSeenSlim