2010-01-31 84 views
3

我需要評估預測事件發生概率的算法的有效性。如何評估預測概率的算法的有效性?

我目前的做法是使用「均方根誤差」,即。誤差平均值的平方根,如果事件發生,錯誤爲1.0預測,或者如果事件未發生,則預測

這些算法沒有具體的應用,但常見的一種方法是預測每種選項發生的事件,然後選擇最大化該選項的選項。我們的收益與具有最高預測概率的期權之間發生期望事件的比率成正比。

有人建議,RMSE可能不是最好的選擇,我對其他人的意見很感興趣。

+0

用它來押馬嗎?這與編程一樣重要,因爲您的問題。 – 2010-01-31 22:32:44

回答

1

chi-square test是一種廣泛使用的分佈健身測試:

Σ(O - 電子)/E

其中ö是觀察到的結果的頻率iE i是預期的頻率。該卡方檢驗要求最小樣本量(約5或10,取決於分佈,特別是分佈的degrees of freedom)針對每個可能的結果。如果樣品尺寸不符合要求,則需要申請耶茨修正:

Σ(| O - 電子 | - 0.5)/E

免責聲明:我不是統計員。上面可能會忽略一些較好的觀點。我知道有一個很好的理由使用卡方比RMSE,但我不記得它是什麼。

尋找討論hypothesis testing的網頁。

0

我不確定我是否理解你的問題,所以這個答案可能對你沒有用。

問題:
如何能一個測試是否用於計算系統在給定的狀態下與實際概率被測試爲的概率的算法。

推測這是一個系統,其中有一個或多個概率初始狀態相互作用以產生最終狀態,並且初始狀態的分佈是已知的。

這是一個問題,當試圖估計科學計算的計算錯誤時會出現。

答:解決這個問題
一種方法是使用所謂的Monte Carlo simulation

要做到這一點,您可以根據初始概率分佈選擇大量初始狀態分佈。對於每個初始狀態,計算系統的最終狀態。通過查看最終狀態的分佈,可以確定具有特定值的最終狀態的可能性。

您現在可以比較模擬結果和算法結果。

儘管上面的描述聽起來可能是技術性的,但在實踐中這些描述相當容易編寫。你可以在網上找到許多教程,儘管大多數人使用蒙特卡羅技術來解決一個稍微不同的問題。

例子:

假設你正在尋找在那裏被扔一個硬幣數量的系統。你想知道總硬幣中有兩個被翻轉的可能性都是最終擡頭。

你可以編寫一個算法來預測這種可能性,其中的選項就是投擲硬幣的數量。 (當然,這個概率確切的計算。)

要做模擬,你首先要設置大量的初始狀態。在每種初始狀態下,您隨機選擇每枚硬幣是頭還是尾。你現在計算兩枚硬幣頭高的結果數量,並將其與你的預測進行比較。

+0

問題是我有一堆數據,我知道發生了什麼,我知道我預測會發生什麼。我如何將它變成某種可用於評估相對於其他算法的「分數」? – sanity 2010-01-31 23:39:12

+0

啊。我使用的標準度量是誤差的平方和。這與均方根誤差相似,但解釋更簡單。我認爲這通常是一種很好的度量標準,可以在適當的時候對錯誤進行加權。 你有一個具體的例子嗎? – amicitas 2010-02-01 00:03:34

1

看一看ROC curves aka Receiver operating characteristics

爲了從維基百科頁引證:

在信號檢測理論,接收機 操作特徵(ROC),或簡單地 ROC曲線,是一個曲線圖的靈敏度比(1 - 特異性)爲二元分類器 系統作爲其歧視閾值 是不同的。 ROC也可以通過將真陽性分數(TPR = 真陽性率)與假陽性分數(FPR =假 陽性率)分數 等效表示。也稱爲 相對工作特性 曲線,因爲它是比較 兩個工作特性(TPR & FPR)作爲標準的變化。

ROC分析提供工具來選擇 可能最佳模型和從 獨立地 欠佳者丟棄(並指定之前)的成本 上下文或類分佈。 ROC 分析與診斷決策的成本/收益分析 直接相關,並且與診斷決策的成本/效益分析 相關。中華民國 曲線首先是由二戰期間 電氣工程師和雷達 工程師開發了 檢測在戰鬥中敵人的對象 領域,也被稱爲信號 檢測理論,並很快 心理學​​引入佔 的感性信號檢測。 ROC分析自此之後已經在醫學,放射學和其他 地區使用 幾十年了,它已經在 其他領域比如最近被引入像機器學習和 數據挖掘。

它實際上比聽起來容易,使比較容易 - '更好'的方法將直觀地支配劣等方法的ROC曲線。

R有一些這方面的軟件包。

0

這聽起來像你預測的東西,取值爲0或1的結果,對嗎?如果是這樣,你可以看看關於離散選擇建模的討論。 「選擇」一詞不應該字面意思。雖然大多數離散選擇模型都是圍繞人們解釋人們每天做出的選擇而設計的 - 購買這種產品或那種產品,乘坐火車或駕駛,採取一條路線上班或另一種路線 - 相同的模型已成功應用於賽狗和賽馬。

關於這個問題的關鍵文本是由本 - 阿基瓦& Lerman和肯尼思列車。關於指定和擬合這些統計模型的信息,請查看「Logit模型」。