因爲還有一個問題,我正在建設我的優質question。如何使用概率分佈對象計算一個點的概率?
我已經在Matlab中適合我的數據向量的正態分佈:PD = fitdist(data,'normal')
。現在我有一個新的數據點(例如x = 0.5),我想計算它的概率。
使用cdf(PD,x)
將不起作用,因爲它給出了該點小於或等於x(但不完全是x)的概率。使用pdf(PD,x)
只給出了密度,但不是概率,所以它可以大於1。
我該如何計算概率?
因爲還有一個問題,我正在建設我的優質question。如何使用概率分佈對象計算一個點的概率?
我已經在Matlab中適合我的數據向量的正態分佈:PD = fitdist(data,'normal')
。現在我有一個新的數據點(例如x = 0.5),我想計算它的概率。
使用cdf(PD,x)
將不起作用,因爲它給出了該點小於或等於x(但不完全是x)的概率。使用pdf(PD,x)
只給出了密度,但不是概率,所以它可以大於1。
我該如何計算概率?
比方說,你有一個隨機變量X
遵循均值mu
和標準偏差s
正態分佈。
令F爲正態分佈的累積分佈函數,平均值爲mu
,標準差爲s
。隨機變量X
落在a
和b
之間的概率,即P(a < x < = b)= F(b)-F(a)。
在Matlab代碼:
P_a_b = normcdf(b, mu, s) - normcdf(a, mu, s);
注意:觀察到的概率X是恰好等於0.5(或任何特定的值)是零!一系列結果具有正概率,但個別結果總和不足的概率爲零。
如果分佈是連續的,那麼任何點x
的概率都是0,幾乎可以通過連續分佈的定義。如果分佈是不連續的,而且,該分佈的支持是整數集的子集,那麼對於任意整數x的概率是
cdf(PD,x) - cdf(PD,x-1)
更一般地,對於任何隨機變量X,其發生在整數值,概率密度函數f(x)
和累積分佈F(x)
由
f(x) = F(x) - F(x-1)
右手邊可以被解釋爲一個離散的衍生物相關的,因此這是以下事實的直接模擬,在連續的情況下的PDF是cdf的衍生物。
我不確定matlab是否有更直接的方式來獲得您的情況下的概率質量函數,而不是像通過這樣的cdf。
在連續的情況下,你的問題沒有多大意義,因爲正如我上面所說的,概率是0.在這種情況下非零概率是附加到區間而不是單獨點的東西。你仍然可能想問一下在x
附近獲得價值的概率 - 但是你必須決定「near」的意思。例如,如果x
是一個整數,那麼您可能想知道獲得四舍五入爲x的值的概率。這將是:
cdf(PD, x + 0.5) - cdf(PD, x - 0.5)
謝謝你的回答。概率論不是我的力量。 ;)在我的情況下分佈是連續的(正態分佈)。 RHS和PMF是什麼意思?我認爲你的解釋是針對離散分佈的,但我怎樣才能適應它的連續分佈? – machinery
@machinery您真的應該閱讀如何使用概率密度函數和/或累積分佈函數來計算各種結果的概率。 使用離散分佈,可以總結各種較小的分量事件發生較大事件的概率。 (例如模具卷X爲3或更小的概率是概率P(X = 1)+ P(X = 2)+ P(X = 3))。對於連續分佈,類似於將概率質量功能是集成概率密度函數。整合基本上是總結。 –
@MatthewGunn對概率密度函數進行積分正是我認爲的Matlab的pdf函數,但這可能會變得比不再是真實概率的函數大。 – machinery
非常感謝,但我最初想要的是P(X = a),這意味着a = b它將給出F(b) - F(a)= F(a) - F(a)= 0 – machinery
@machinery yes , 那是對的。這就是爲什麼沒有人要求P(X = a)用於正態分佈或大多數其他連續分佈(可能除了在測試或作業問題上,以測試理解)。對於具有連續概率密度函數的任意隨機變量X,P(X = a)= 0。 –
好的,但是在(高斯)樸素貝葉斯分類器中,你爲每個特徵擬合了一個正態分佈,然後你必須計算P(X = a)來得到一個新的數據點...我可以使用這樣的PDF值一個案例?當然pdf可以比一個更大,但更高的pdf值意味着更高的概率(密度)。 – machinery