客戶流失

-1

對於一個學術項目，我必須分析一家保險公司的客戶數據庫。這家保險公司想識別一對夫婦，首先將離開該公司的分類客戶爲了使他們獲得某些優惠等等。然後，他們還想知道哪些客戶進行了促銷或交叉銷售，以及在保險索賠方面尋找有風險的客戶。客戶流失

所以我專注於客戶取消，因爲它似乎是最重要的。

由保險公司提供的屬性包括：

捆綁/鬆綁，政策現狀，策略類型，策略組合，簽發日期，生效日期，到期日，政策持續，貸款期限，取消日期，原因取消，總保險費，分配者保險費，合作伙伴ID，代理商ID，國家代理商，區域代碼，代理機構潛力，性別承包商，出生年度承包商，工作承包商，被保險人性別，受保人保險，出生年份保險，年度索賠，索賠狀態，規定，賠款

該數據庫由〜20萬的記錄，並有一些屬性的大量缺失值。我開始使用Rapid Miner來挖掘數據集。我清理了一下數據集，刪除了不連貫或錯誤的值。

我又試圖運用決策樹，添加名爲isCanceled從政策現狀得到的一個新的屬性（可發行，延期或取消），並將其作爲決策樹的標籤。我試着改變每一個參數的決策樹，但我要麼得到一棵樹只有1葉節點，沒有分裂，或某些樹是完全不相關的，因爲它有葉節點幾乎相同的數字實例2類。這讓人非常沮喪。

我想知道什麼是常規程序，使流失分析是，可能使用快速Miner..can人幫助我嗎？

來源

2013-06-26 DeusExMachina

在我的經驗，大多數數據挖掘和機器學習的活動耗費了大量的時間清洗，整理，格式化和理解數據。

假設這已經完成，那麼只要某些或所有屬性與要預測的標籤之間存在關聯，就可以執行某種類型的流失分析。

有很多的方法來確定，當然這個關係，而是一個快速的方法是嘗試Weight By運營商之一。這將爲每個屬性輸出一組權重，而那些接近1的權重可能更多地預測標籤。

如果確定存在的價值屬性，可以使用決策樹或其他運營商建設可用於預測模型。您擁有的屬性是名義類型和數字類型的組合，因此決策樹可以工作，並且無論如何，這個操作符都更易於可視化。棘手的部分是獲取正確的參數，而做到這一點的方法是在參數不同時觀察模型對未見數據的性能。 Loop Parameters運營商可以提供幫助。

來源

2013-07-21 09:50:40 awchisholm

回答

相關問題