2012-11-20 143 views
1

我想基於過去發生的列表計算百分比概率。
數據看起來與此簡化表類似,例如,當過去的第一個值爲8時,事件發生的概率爲72%。根據每個值的過去概率計算新概率

1 76% 
2 64% 
4 80% 
6 85% 
7 83% 
8 72% 
11 70% 

全表範圍從0到1030,有377行,但每天都在變化。我想傳遞一個值爲3的函數,並返回事件發生的百分比概率。我不需要確切的代碼,但希望指出正確的方向。 謝謝

+0

謝謝菲爾,看起來好多了。 – user1837966

+0

你是多麼確定這兩者是相關的?由於2的值僅比11的值低6%,但與1和4的值相差12%和16%,你可以推斷出大約3?是否應該在2和4的值之間? –

+0

這些值是相關的,但有些模糊,第1列中的一些值比其他值更頻繁或根本沒有。所以不,它不像在更低和更高值之間的一半那麼簡單。在實際表格中,隨着第1列中的數字增加,概率趨於下降。有什麼方法可以將實際數據發送給您? – user1837966

回答

0

根據你在問題的評論中的答案,我會建議一個插值---線性插值是最簡單的答案。基於電子表格中的系列,看起來似乎不適合概率模型(第1列和第3列之間似乎沒有明確的關係)。

舉一個例子說明這是如何工作的:假設你想要一個點p的概率,這在數據中是不可見的。您觀察到的最大值是,比p小是p_low(具有相應的概率f(p_low)),並且大於p的最小值是p_high(具有概率f(p_high))。您對於p的估計是:

interval = p_high - p_low 
f_p_hat = ((p-p_low)/interval*f_p_low) + ((p_high-p)/interval*f_p_high) 

這將讓你估計的p值的加權平均值在p_low和p_high,由p和p_low,p和p_high之間的距離給出權重。例如。如果p在p_low和p_high之間是等距的,則f_p_hat(你對f(p)的估計)就是p_low和p_high的平均值。

現在,如果您有理由懷疑端點估計值不準確(可能由於樣本量較小),則線性插值可能無法正常工作。如果是這樣,就有可能對p周圍的點進行(可能加權的)最小二乘擬合,並將其用作預測。如果是這種情況,我可以詳細介紹一下。

+0

謝謝本。我會試一試,看看它的表現如何幾個星期。你的第二個選項包括更多的周圍數據點可能更有效,我也會嘗試。我感謝您的幫助。 – user1837966