最優桶的大小和桶的編號

對不起這個職位是不相關的編碼，但更多的數據結構和算法。我有大量的數據，每個都有不同的頻率。近似數字圖似乎是一條貝爾曲線。我現在想要在範圍內顯示最準確描述範圍頻率的數據。例如整個數據範圍總共沒有。但是這個範圍或者桶大小並不精確，並且可能更精確（例如，如果一些數據更集中在特定的頻率區域，我們可以建立一個數據量較小但具有更緊密相關頻率的桶）。
有關某些算法的任何幫助。我想到了一個與二分查找有關的算法。任何想法的人。最優桶的大小和桶的編號

來源

2012-06-05 user1425322

不確定我在追隨，但看起來您正在尋找k bean，對於每兩個bean，數據落入一個bean的可能性與其他bean相同。

從你的描述，你的數據似乎是normally分佈，或T-distributed。

可評價的平均值和數據的標準差，讓提取S.D.爲s，平均值爲u。

的標準公式評估的平均值和S.D。從樣品是：

u = (x1 + x2 + ... + xn)/n (simple average) 
s^2 = Sigma((xi - u)^2)/(n-1)

鑑於這一信息，你可以評估你的數據，這是N(u,s^2)的分佈。鑑於這一信息，您可以創建一個隨機variabe：X~N(u,s^2)

現在，所有剩下的就是尋找A，B，...如下（假設10桶，這顯然可以按照您的意願修改）：

P(X<a) = 0.1 
P(X<b) = 0.2 
P(X<c) = 0.3 
...

找到一個，b，C後，...你有你的豆類：（-infinity，A]，（A，b]，（A，C]，...

（1）評價方差：http://en.wikipedia.org/wiki/Variance#Population_variance_and_sample_variance
（2）這個變量的實際分佈實際上是t分佈，因爲方差是未知的 - 並且從數據中提取。但是 - 對於足夠大的t分佈衰減爲正態分佈。

來源

2012-06-05 07:02:10 amit

感謝您的想法。我現在清楚桶的大小。很值得，但我想最大不會。有用的桶。假設兩個連續的數據集具有低頻率，將它們放入具有較高附加頻率的一個數據集中會更有用。本質上，我試圖說不。的桶是一個動態變量，必須根據數據集及其頻率進行選擇。必須有一些算法來選擇否。的水桶。 10個桶（假設）可能在一種情況下看起來不錯，而在另一種情況下可能不會。 – user1425322

@ user1425322：這種方法會爲您提供'k'數據集，所有這些數據集都有望增加頻率。這裏的'k'是你需要預定義的參數。 – amit

我所擁有的是一個數據集，它們的頻率看起來像一條正常的曲線（就像你說的那樣）。但是我想要一些水桶（數字是未知的），以最好的方式容納所有數據集。固定不。的桶會在不同數據集的情況下導致沉悶的表示。任何想法或算法關於這個。 – user1425322

-1

首先計算各指標再減去重複值，這會給你桶的最佳數目。但在小水平

來源

2017-05-23 19:20:37 Ricky

最優桶的大小和桶的編號

回答

相關問題