0

我的項目看起來像這樣:我的數據集是一羣具有各種屬性的人的配置文件,例如, boolean hasJob和int healthScore,以及他們的收入。利用這些數據,我試圖預測他們未來的收入。每個配置文件還有一個歷史記錄:例如,過去他們的屬性和收入是什麼。推薦的AI /機器學習:配置文件輸入,收入預測

因此,本質上我試圖將多組(x布爾值,y數字)映射到一個數字(來年的薪水)。

我已經考慮了神經網絡,貝葉斯網絡和用於函數擬合的遺傳算法。任何建議或意見?

在此先感謝! - Emoily

回答

1

你想要做的就是所謂的「時間序列建模」。但是,你可能每個系列只有很少的數據(每個人)。我認爲很難找到適合每個人的模型,因爲你可以做出一些一般的假設,例如,每個人都是職業導向。此外,這是一個嘈雜的目標,它可能是,例如,你必須考慮到,如果有人是sweettalker或不。你如何衡量這樣的事情?我很確定你目前的屬性有足夠的噪音,這將使得很難預測任何事情。當你說健康狀況時,你的意思是身體健康還是心理健康。在不同的企業中,不同的事情很重要他們工作的企業或行業呢?它的健康和增長潛力?我會認爲這極大地影響了他們的收入。我也認爲你有因變量以及屬性可能(也可能)受到你的目標變量的影響。例如,收入較高的人有更好的健康。這聽起來像一個非常非常複雜和困難的事情,絕對沒有什麼地方「我天真地分組我的數據並嘗試了一堆方法」將會給有意義的結果。我建議更多地瞭解時間序列建模,特別是關於您擁有的數據。也許可以嘗試從集羣初始屬性開始,看看它們是如何發展的。有沒有與這種發展相關的變量?

你的研究問題是什麼?