2012-06-05 30 views
0

對不起這個職位是不相關的編碼,但更多的數據結構和算法。 我有大量的數據,每個都有不同的頻率。近似數字圖似乎是一條貝爾曲線。我現在想要在範圍內顯示最準確描述範圍頻率的數據。 例如整個數據範圍總共沒有。但是這個範圍或者桶大小並不精確,並且可能更精確(例如,如果一些數據更集中在特定的頻率區域,我們可以建立一個數據量較小但具有更緊密相關頻率的桶)。
有關某些算法的任何幫助。 我想到了一個與二分查找有關的算法。 任何想法的人。最優桶的大小和桶的編號

回答

4

不確定我在追隨,但看起來您正在尋找k bean,對於每兩個bean,數據落入一個bean的可能性與其他bean相同。

從你的描述,你的數據似乎是normally分佈,或T-distributed

可評價的平均值和數據的標準差,讓提取S.D.爲s,平均值爲u

的標準公式評估的平均值和S.D。從樣品是:

u = (x1 + x2 + ... + xn)/n (simple average) 
s^2 = Sigma((xi - u)^2)/(n-1) 

鑑於這一信息,你可以評估你的數據,這是N(u,s^2)的分佈。鑑於這一信息,您可以創建一個隨機variabe:X~N(u,s^2)

現在,所有剩下的就是尋找A,B,...如下(假設10桶,這顯然可以按照您的意願修改):

P(X<a) = 0.1 
P(X<b) = 0.2 
P(X<c) = 0.3 
... 

找到一個,b,C後,...你有你的豆類:(-infinity,A],(A,b],(A,C],...


(1)評價方差:http://en.wikipedia.org/wiki/Variance#Population_variance_and_sample_variance
(2)這個變量的實際分佈實際上是t分佈,因爲方差是未知的 - 並且從數據中提取。但是 - 對於足夠大的t分佈衰減爲正態分佈。

+0

感謝您的想法。我現在清楚桶的大小。很值得,但我想最大不會。有用的桶。假設兩個連續的數據集具有低頻率,將它們放入具有較高附加頻率的一個數據集中會更有用。本質上,我試圖說不。的桶是一個動態變量,必須根據數據集及其頻率進行選擇。必須有一些算法來選擇否。的水桶。 10個桶(假設)可能在一種情況下看起來不錯,而在另一種情況下可能不會。 – user1425322

+0

@ user1425322:這種方法會爲您提供'k'數據集,所有這些數據集都有望增加頻率。這裏的'k'是你需要預定義的參數。 – amit

+0

我所擁有的是一個數據集,它們的頻率看起來像一條正常的曲線(就像你說的那樣)。但是我想要一些水桶(數字是未知的),以最好的方式容納所有數據集。固定不。的桶會在不同數據集的情況下導致沉悶的表示。任何想法或算法關於這個。 – user1425322

-1

首先計算各指標再減去重複值,這會給你桶的最佳數目。但在小水平