如何爲受監督的機器學習項目構建目標變量

我對機器學習有很少的經驗，並且我做了一些項目，這是相當新的。如何爲受監督的機器學習項目構建目標變量

現在我有一個項目涉及保險。所以我有關於客戶端的數據庫，我將合併以獲取關於客戶端的所有可能的信息，並且我有一個數據庫用於索賠。我需要建立一個模型，以確定基於等級的客戶風險程度。

我的問題：我需要建立自己的目標變量，根據客戶的風險程度對客戶進行排序，依據索賠。我可以有不同的策略來做到這一點，但我對我將如何處理以下問題感到困惑： - 在構建諸如聚類之類的隊伍之前，我應該做一個特定類型的分析，還是我需要有一個強大的理論假設匹配與項目提供商的願景。 - 如果我在索賠數據庫中使用一些變量來建立隊伍，那麼我以後如何處理它們。換句話說，我應該將它們從最終的訓練數據集中刪除，以避免與目標變量相關，或者我可以以不同的方式處理它們並保留它們。 - 如果我保留它們，是否有特殊待遇取決於它們是分類變量還是連續變量。

來源

2017-06-29 Ahmed Essam

每個機器學習項目的起點都是EDA。首先創建一些功能，比如他們多頻繁地收到不好的聲明或者收到多少次。然後做一些EDA來找出哪些功能更有用。其次，這個問題看起來像分類。聚類通常很難評估。

來源

2017-07-20 05:01:35

如何爲受監督的機器學習項目構建目標變量

回答

相關問題