2017-01-23 35 views
-1

我有一個鍛鍊,在那裏我給出5個數據點:最大似然估計 - 比較兩個分佈

獨立產生x1 = 10, x2 = 7, x3 = 1, x4 = 15, x5 = 8

在第一部分,我告訴他們遵循參數THETA的泊松分佈,並問我找到2θ位置的最大似然估計。

我計算argmax(theta) of ln(x1,x2,x3,x4,x5 | theta)並得到了

theta = 41/5 = 8.2結果。

對於第二部分,我被問到同樣的事情,但這一次我被告知他們遵循參數分佈的參數theta。

我做了同樣的積分,並獲得的

theta = 5/41 = 0.12結果。

現在我被問到這兩個分佈(泊松或指數)中哪一個最可能產生了5個點(x1,x2,x3,x4,x5)。

基本上我需要找出這兩個分佈中哪一個具有產生5個點的最高概率,基於(我相信)我爲兩者計算的theta。

但我似乎無法弄清楚我需要找到的這兩種概率的形式是什麼。它是MAP概率嗎? P(theta | x1,x2,x3,x4,x5)?如果是,我可以使用貝葉斯公式來獲得P(x1,x2,x3,x4,x5 |θ)*Pθ/ P(x1,x2,x3,x4,x5)

。但什麼是P(theta)和P(x1,x2,x3,x4,x5)?

任何想法?

+0

我需要先計算P(data | theta)嗎? –

+1

聽起來像一個人爲的[模型選擇](https://en.wikipedia.org/wiki/Model_selection)問題。所以有很多可能的方法。鑑於你剛剛計算出MLE [AIC](https://en.wikipedia.org/wiki/Akaike_information_criterion)就是其中之一。 –

+0

我投票結束這個問題作爲題外話,因爲它是關於概率/統計/ [math.se]而不是編程或軟件開發。 – Pang

回答

1

你被問到哪兩個模型更可能,所以你需要知道以上兩個分佈。既然你對他們一無所知,而且只有兩個,讓我們假設先驗爲1/2,那麼你必須:

P(distr = x | data) = P(data | distr = x) P(distr = x)/P(data) 

從而

P(distr = exp | data) > P(distr = poiss | data) <-> 
P(data | distr = exp) > P(data | distr = poiss) 

,所有你需要做的就是比較這些你已經完成了兩個概率(來自MLE)。

P(數據)並不重要,因爲它們在兩種情況下都是相同的。我們假設P(distr = x)是平等的,所以也不重要。一般而言,人們通過各種方式修改P(distr = x),以考慮分佈的「複雜性」(這就是AIC和其他類似的事情 - 他們假設分佈的參數化與其先驗概率之間的啓發映射)。