-1

對於一個學術項目,我必須分析一家保險公司的客戶數據庫。 這家保險公司想識別一對夫婦,首先將離開該公司的分類客戶爲了使他們獲得某些優惠等等。然後,他們還想知道哪些客戶進行了促銷或交叉銷售,以及在保險索賠方面尋找有風險的客戶。客戶流失

所以我專注於客戶取消,因爲它似乎是最重要的。

由保險公司提供的屬性包括:

捆綁/鬆綁,政策現狀,策略類型,策略組合,簽發日期,生效日期,到期日,政策持續,貸款期限,取消日期,原因取消,總保險費,分配者保險費,合作伙伴ID,代理商ID,國家代理商,區域代碼,代理機構潛力,性別承包商,出生年度承包商,工作承包商,被保險人性別,受保人保險,出生年份保險,年度索賠,索賠狀態,規定,賠款

該數據庫由〜20萬的記錄,並有一些屬性的大量缺失值。 我開始使用Rapid Miner來挖掘數據集。 我清理了一下數據集,刪除了不連貫或錯誤的值。

我又試圖運用決策樹,添加名爲isCanceled從政策現狀得到的一個新的屬性(可發行,延期或取消),並將其作爲決策樹的標籤。 我試着改變每一個參數的決策樹,但我要麼得到一棵樹只有1葉節點,沒有分裂,或某些樹是完全不相關的,因爲它有葉節點幾乎相同的數字實例2類。 這讓人非常沮喪。

我想知道什麼是常規程序,使流失分析是,可能使用快速Miner..can人幫助我嗎?

回答

1

在我的經驗,大多數數據挖掘和機器學習的活動耗費了大量的時間清洗,整理,格式化和理解數據。

假設這已經完成,那麼只要某些或所有屬性與要預測的標籤之間存在關聯,就可以執行某種類型的流失分析。

有很多的方法來確定,當然這個關係,而是一個快速的方法是嘗試Weight By運營商之一。這將爲每個屬性輸出一組權重,而那些接近1的權重可能更多地預測標籤。

如果確定存在的價值屬性,可以使用決策樹或其他運營商建設可用於預測模型。您擁有的屬性是名義類型和數字類型的組合,因此決策樹可以工作,並且無論如何,這個操作符都更易於可視化。棘手的部分是獲取正確的參數,而做到這一點的方法是在參數不同時觀察模型對未見數據的性能。 Loop Parameters運營商可以提供幫助。