2013-03-21 19 views
3

我有一個相當容易理解的問題。轉換數據以適合正態分佈

我有一組數據,我想估計這個數據有多好,符合標準正態分佈。要做到這一點,我開始與我的代碼:

[f_p,m_p] = hist(data,128); 
f_p = f_p/trapz(m_p,f_p); 

x_th = min(data):.001:max(data); 
y_th = normpdf(x_th,0,1); 

figure(1) 
bar(m_p,f_p) 
hold on 
plot(x_th,y_th,'r','LineWidth',2.5) 
grid on 
hold off 

圖1看起來像下面這樣:

enter image description here

不難發現,配合相當差,altough的鐘形狀可以被發現。主要問題在於我的數據差異

要找出occurrances適當數量的我的數據箱應該自己,我這樣做:

f_p_th = interp1(x_th,y_th,m_p,'spline','extrap'); 
figure(2) 
bar(m_p,f_p_th) 
hold on 
plot(x_th,y_th,'r','LineWidth',2.5) 
grid on 
hold off 

這將導致如下圖。 :

enter image description here

因此,問題是:我怎麼能擴展我的數據塊以匹配高斯分佈在圖2

注意

我想強調的重點一點:我找到最好分佈擬合數據; 問題顛倒:從我的數據開始,我想操縱它,最終它的分佈合理地符合高斯函數。

不幸的是,目前,我還沒有真正的想法如何執行這個數據「過濾器」,「變換」或「操縱」。

任何支持將受到歡迎。

+0

如何爲這個問題從以前的最後兩個問題有什麼不同([這](http://stackoverflow.com/questions/15496804/manipulate -data-to-better-fit-a-gaussian-distribution)和[this](http://stackoverflow.com/questions/15473064/fit-data-to-normal-distribution))? – 2013-03-21 14:13:21

+0

到目前爲止我還沒有得到任何有價值的答案!所以我試圖調整這個問題以使它更易於讀者閱讀。 – fpe 2013-03-21 14:17:19

+0

我認爲最好的辦法是通過_editing_,而不是發佈新的問題。但那只是我的看法,當然。 – 2013-03-21 14:18:34

回答

3

可能是你感興趣的是基於等級的逆法線變換。基本上你的排名數據的第一次他們將其轉換爲正態分佈:

rank = tiedrank(data); 
p = rank/(length(rank) + 1); %# +1 to avoid Inf for the max point 
newdata = norminv(p, 0, 1); 
+0

目前這是我會遵循的程序,但我需要更徹底地測試它。 – fpe 2013-03-21 20:05:57

+0

@fpe:請不要在不接受某些答案的情況下留下問題。不要忘記註冊那些你認爲有用的人。 – yuk 2013-03-27 15:25:31

+0

對不起,但我現在在復活節假期,只有有限的訪問網絡。我會在下週解決所有問題。 – fpe 2013-03-28 11:28:21

0

我還沒有能夠真正理解這個問題或您最近的其他類似問題究竟在問什麼。

也許你的數據是正態分佈的,你想使它的正態分佈的均值爲0,標準差爲1?

如果是這樣,然後減去從數據musigma,其中mu是數據的平均值,sigma是它的標準差除以它。如果您的原始數據是正態分佈的,那麼結果應該是正態分佈的數據,其平均值爲0,標準偏差爲1.

統計工具箱中有一個函數zscore爲您完成此操作。

但也許你的意思是別的嗎?

+0

我知道這個訣竅,我已經應用了它,但它聽起來像是「僞裝」時間序列,因爲分佈根本沒有改變,我認爲它不保證數據塊的高斯性。但我不是專家。 – fpe 2013-03-21 20:04:59

2

你試圖做的事似乎與試圖找到一組數據是如何隨機的問題相匹配。超高速pdf是那些在零點附近(或平均值,無論它可能是什麼)比高斯分佈更大的概率,因此更「尖銳」 - 非常像你的例子。拉普拉斯分佈就是這種分佈的一個例子。 Subgaussian pdfs則相反。

數據集與高斯分佈的接近程度的測量可以用許多方法給出......通常這是通過使用四階矩,峯度(MATLAB函數kurt)或信息理論衡量諸如負熵(http://en.wikipedia.org/wiki/Negentropy)。如果你有很多異常值,峯度是有點狡猾的,因爲錯誤被提升到4的冪,所以負熵值更好。

如果您不理解術語「四階矩」,請閱讀統計學教科書。

在許多有關獨立分量分析(ICA)的文章中都給出了這些和其他幾種隨機性度量(高斯性)的比較,因爲它是一個核心概念。關於這方面的一個很好的資源是由Hyvarinen和Oja撰寫的獨立成分分析 - http://books.google.co.uk/books/about/Independent_Component_Analysis.html?id=96D0ypDwAkkC