對於一個學術項目,我必須分析一家保險公司的客戶數據庫。 這家保險公司想識別一對夫婦,首先將離開該公司的分類客戶爲了使他們獲得某些優惠等等。然後,他們還想知道哪些客戶進行了促銷或交叉銷售,以及在保險索賠方面尋找有風險的客戶。客戶流失
所以我專注於客戶取消,因爲它似乎是最重要的。
由保險公司提供的屬性包括:
捆綁/鬆綁,政策現狀,策略類型,策略組合,簽發日期,生效日期,到期日,政策持續,貸款期限,取消日期,原因取消,總保險費,分配者保險費,合作伙伴ID,代理商ID,國家代理商,區域代碼,代理機構潛力,性別承包商,出生年度承包商,工作承包商,被保險人性別,受保人保險,出生年份保險,年度索賠,索賠狀態,規定,賠款
該數據庫由〜20萬的記錄,並有一些屬性的大量缺失值。 我開始使用Rapid Miner來挖掘數據集。 我清理了一下數據集,刪除了不連貫或錯誤的值。
我又試圖運用決策樹,添加名爲isCanceled從政策現狀得到的一個新的屬性(可發行,延期或取消),並將其作爲決策樹的標籤。 我試着改變每一個參數的決策樹,但我要麼得到一棵樹只有1葉節點,沒有分裂,或某些樹是完全不相關的,因爲它有葉節點幾乎相同的數字實例2類。 這讓人非常沮喪。
我想知道什麼是常規程序,使流失分析是,可能使用快速Miner..can人幫助我嗎?