2017-06-29 29 views
0

我對機器學習有很少的經驗,並且我做了一些項目,這是相當新的。如何爲受監督的機器學習項目構建目標變量

現在我有一個項目涉及保險。所以我有關於客戶端的數據庫,我將合併以獲取關於客戶端的所有可能的信息,並且我有一個數據庫用於索賠。我需要建立一個模型,以確定基於等級的客戶風險程度。

我的問題:我需要建立自己的目標變量,根據客戶的風險程度對客戶進行排序,依據索賠。我可以有不同的策略來做到這一點,但我對我將如何處理以下問題感到困惑: - 在構建諸如聚類之類的隊伍之前,我應該做一個特定類型的分析,還是我需要有一個強大的理論假設匹配與項目提供商的願景。 - 如果我在索賠數據庫中使用一些變量來建立隊伍,那麼我以後如何處理它們。換句話說,我應該將它們從最終的訓練數據集中刪除,以避免與目標變量相關,或者我可以以不同的方式處理它們並保留它們。 - 如果我保留它們,是否有特殊待遇取決於它們是分類變量還是連續變量。

回答

0

每個機器學習項目的起點都是EDA。首先創建一些功能,比如他們多頻繁地收到不好的聲明或者收到多少次。然後做一些EDA來找出哪些功能更有用。其次,這個問題看起來像分類。聚類通常很難評估。