根據每個值的過去概率計算新概率

我想基於過去發生的列表計算百分比概率。
數據看起來與此簡化表類似，例如，當過去的第一個值爲8時，事件發生的概率爲72％。根據每個值的過去概率計算新概率

全表範圍從0到1030，有377行，但每天都在變化。我想傳遞一個值爲3的函數，並返回事件發生的百分比概率。我不需要確切的代碼，但希望指出正確的方向。謝謝

謝謝菲爾，看起來好多了。 – user1837966

你是多麼確定這兩者是相關的？由於2的值僅比11的值低6％，但與1和4的值相差12％和16％，你可以推斷出大約3？是否應該在2和4的值之間？ –

這些值是相關的，但有些模糊，第1列中的一些值比其他值更頻繁或根本沒有。所以不，它不像在更低和更高值之間的一半那麼簡單。在實際表格中，隨着第1列中的數字增加，概率趨於下降。有什麼方法可以將實際數據發送給您？ – user1837966

根據你在問題的評論中的答案，我會建議一個插值---線性插值是最簡單的答案。基於電子表格中的系列，看起來似乎不適合概率模型（第1列和第3列之間似乎沒有明確的關係）。

舉一個例子說明這是如何工作的：假設你想要一個點p的概率，這在數據中是不可見的。您觀察到的最大值是，比p小是p_low（具有相應的概率f（p_low）），並且大於p的最小值是p_high（具有概率f（p_high））。您對於p的估計是：

interval = p_high - p_low 
f_p_hat = ((p-p_low)/interval*f_p_low) + ((p_high-p)/interval*f_p_high)

這將讓你估計的p值的加權平均值在p_low和p_high，由p和p_low，p和p_high之間的距離給出權重。例如。如果p在p_low和p_high之間是等距的，則f_p_hat（你對f（p）的估計）就是p_low和p_high的平均值。

現在，如果您有理由懷疑端點估計值不準確（可能由於樣本量較小），則線性插值可能無法正常工作。如果是這樣，就有可能對p周圍的點進行（可能加權的）最小二乘擬合，並將其用作預測。如果是這種情況，我可以詳細介紹一下。

2012-11-21 16:15:11

謝謝本。我會試一試，看看它的表現如何幾個星期。你的第二個選項包括更多的周圍數據點可能更有效，我也會嘗試。我感謝您的幫助。 – user1837966

回答