0

我正在從事個人項目,只是爲了好玩。基本上,我已經收集了擁有大約就像每個國家的人口信息的數據:根據人口統計信息對用戶進行分類

德國74%,男性26%,女性10%的已婚16%Age_30-35 40%等

現在我想做的是當我獲得新用戶,我看到該用戶所在的國家並嘗試預測用戶的信息,即用戶是否爲已婚並且年齡在30-35歲的男性(僅舉例)。

我的問題是我該如何做出這樣的預測,我不能只是制定一個規則,如果一個國家有超過50%的男性,這個國家的新用戶也是男性。基本上我想知道如何決定能夠幫助我確切預測用戶人口統計的價值。

回答

1

這不是一個真正的預測,而是一個概率問題,因爲如果您具有所描述的值,則可以計算所有概率。

下面是一個例子:

Male population = 74% 
People married = 16% 
People between 30-35 = 40% 

要獲得一個新的德國用戶的概率是男性,已婚,之間30-35歲你執行以下操作:

P(Male|Married|30-35) = p(Male) * p(Married) * p(30-35) 
P(Male|Married|30-35) = 0,74 * 0,16 * 0,40 = 0,04736 ~ 4,7% 

你不需要更多的計算。如果你想自動分類所有用戶,我建議你看看Naive Bayes Classification

+0

非常感謝。這很有幫助。 – user2175104

相關問題