2016-09-21 89 views
1

對於R和機器學習來說非常新穎,但是我不得不基於許多變量e.e進行預測客戶流失的項目。服務時間長度,發出的信用票據數量,錯過交付的數量,價格上漲的數量等。R對於預測和傾向的預測模型原因%

我使用rpart和randomforest,並獲得了每個客戶端的流失預測數據集。我能夠產生一個信心矩陣,看看哪些是重要的指標。但是,輸出的目的是作爲「風險」客戶名單發送給銷售團隊處理。

對此,真正重要的是追加信心/傾向/可能性來攪動,這樣我可以按照風險排序,但是有沒有辦法爲每個客戶添加一個類別/彙總/原因至於爲什麼他們被預測會流失 - 即客戶abc - 價格上漲的高分,所以我們需要小心定價。客戶對錯過交付的拒絕率高 - 需要修復我們的服務?

非常感謝您的幫助。

回答

0
  1. 如果要預測流失概率,可以訓練邏輯迴歸模型並使用模型預測流失概率。您還可以找出導致客戶流失的重要預測變量(請參閱http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf),您可以使用anova和它一起查找重要前置變量解釋的變化。
  2. 如果您想找出發生特定客戶流失的原因,您可以學習決策樹(CART/rpart)模型,然後按照從客戶所屬的決策樹中的根節點到葉節點的路徑學到了。
  3. 最後,randomForest集合分類器可用於根據OOB誤差估計來查找流失的最重要預測變量。
+0

謝謝你的理解。然而,第2點聽起來非常手動 - 如果我有10萬客戶,我是否需要爲每個客戶跟蹤樹下的變量?沒有辦法確定每個客戶的根?謝謝 – user3103335