2016-04-07 182 views
2

因爲還有一個問題,我正在建設我的優質question如何使用概率分佈對象計算一個點的概率?

我已經在Matlab中適合我的數據向量的正態分佈:PD = fitdist(data,'normal')。現在我有一個新的數據點(例如x = 0.5),我想計算它的概率。

使用cdf(PD,x)將不起作用,因爲它給出了該點小於或等於x(但不完全是x)的概率。使用pdf(PD,x)只給出了密度,但不是概率,所以它可以大於1。

我該如何計算概率?

回答

1

比方說,你有一個隨機變量X遵循均值mu和標準偏差s正態分佈。

令F爲正態分佈的累積分佈函數,平均值爲mu,標準差爲s。隨機變量X落在ab之間的概率,即P(a < x < = b)= F(b)-F(a)。

在Matlab代碼:

P_a_b = normcdf(b, mu, s) - normcdf(a, mu, s); 

注意:觀察到的概率X是恰好等於0.5(或任何特定的值)是零!一系列結果具有正概率,但個別結果總和不足的概率爲零。

+0

非常感謝,但我最初想要的是P(X = a),這意味着a = b它將給出F(b) - F(a)= F(a) - F(a)= 0 – machinery

+0

@machinery yes , 那是對的。這就是爲什麼沒有人要求P(X = a)用於正態分佈或大多數其他連續分佈(可能除了在測試或作業問題上,以測試理解)。對於具有連續概率密度函數的任意隨機變量X,P(X = a)= 0。 –

+0

好的,但是在(高斯)樸素貝葉斯分類器中,你爲每個特徵擬合了一個正態分佈,然後你必須計算P(X = a)來得到一個新的數據點...我可以使用這樣的PDF值一個案例?當然pdf可以比一個更大,但更高的pdf值意味着更高的概率(密度)。 – machinery

4

如果分佈是連續的,那麼任何點x的概率都是0,幾乎可以通過連續分佈的定義。如果分佈是不連續的,而且,該分佈的支持是整數集的子集,那麼對於任意整數x的概率是

cdf(PD,x) - cdf(PD,x-1) 

更一般地,對於任何隨機變量X,其發生在整數值,概率密度函數f(x)和累積分佈F(x)

f(x) = F(x) - F(x-1) 

右手邊可以被解釋爲一個離散的衍生物相關的,因此這是以下事實的直接模擬,在連續的情況下的PDF是cdf的衍生物。

我不確定matlab是否有更直接的方式來獲得您的情況下的概率質量函數,而不是像通過這樣的cdf。

在連續的情況下,你的問題沒有多大意義,因爲正如我上面所說的,概率是0.在這種情況下非零概率是附加到區間而不是單獨點的東西。你仍然可能想問一下在x附近獲得價值的概率 - 但是你必須決定「near」的意思。例如,如果x是一個整數,那麼您可能想知道獲得四舍五入爲x的值的概率。這將是:

cdf(PD, x + 0.5) - cdf(PD, x - 0.5) 
+0

謝謝你的回答。概率論不是我的力量。 ;)在我的情況下分佈是連續的(正態分佈)。 RHS和PMF是什麼意思?我認爲你的解釋是針對離散分佈的,但我怎樣才能適應它的連續分佈? – machinery

+0

@machinery您真的應該閱讀如何使用概率密度函數和/或累積分佈函數來計算各種結果的概率。 使用離散分佈,可以總結各種較小的分量事件發生較大事件的概率。 (例如模具卷X爲3或更小的概率是概率P(X = 1)+ P(X = 2)+ P(X = 3))。對於連續分佈,類似於將概率質量功能是集成概率密度函數。整合基本上是總結。 –

+0

@MatthewGunn對概率密度函數進行積分正是我認爲的Matlab的pdf函數,但這可能會變得比不再是真實概率的函數大。 – machinery