對不起這個職位是不相關的編碼,但更多的數據結構和算法。 我有大量的數據,每個都有不同的頻率。近似數字圖似乎是一條貝爾曲線。我現在想要在範圍內顯示最準確描述範圍頻率的數據。 例如整個數據範圍總共沒有。但是這個範圍或者桶大小並不精確,並且可能更精確(例如,如果一些數據更集中在特定的頻率區域,我們可以建立一個數據量較小但具有更緊密相關頻率的桶)。
有關某些算法的任何幫助。 我想到了一個與二分查找有關的算法。 任何想法的人。最優桶的大小和桶的編號
0
A
回答
4
不確定我在追隨,但看起來您正在尋找k
bean,對於每兩個bean,數據落入一個bean的可能性與其他bean相同。
從你的描述,你的數據似乎是normally分佈,或T-distributed。
可評價的平均值和數據的標準差,讓提取S.D.爲s
,平均值爲u
。
的標準公式評估的平均值和S.D。從樣品是:
u = (x1 + x2 + ... + xn)/n (simple average)
s^2 = Sigma((xi - u)^2)/(n-1)
鑑於這一信息,你可以評估你的數據,這是N(u,s^2)
的分佈。鑑於這一信息,您可以創建一個隨機variabe:X~N(u,s^2)
現在,所有剩下的就是尋找A,B,...如下(假設10桶,這顯然可以按照您的意願修改):
P(X<a) = 0.1
P(X<b) = 0.2
P(X<c) = 0.3
...
找到一個,b,C後,...你有你的豆類:(-infinity,A],(A,b],(A,C],...
(1)評價方差:http://en.wikipedia.org/wiki/Variance#Population_variance_and_sample_variance
(2)這個變量的實際分佈實際上是t分佈,因爲方差是未知的 - 並且從數據中提取。但是 - 對於足夠大的t分佈衰減爲正態分佈。
-1
首先計算各指標再減去重複值,這會給你桶的最佳數目。但在小水平
相關問題
- 1. 最大桶聚合和Elasticsearch 1.7
- 2. s3桶中的文件夾大小
- 3. 族序號爲大小爲X的桶的至少數
- 4. 每個桶的最大couchbase視圖數
- 5. 位桶的符號鏈接
- 6. 將不同大小的M個桶中的N個元素按比例分配到桶大小
- 7. Elasticsearch Aggregation巨大的桶
- 8. 計算Amazon S3存儲桶大小
- 9. std :: unordered_map,你可以用桶號訪問桶中的元素嗎?
- 10. 桶中的桶索引排序
- 11. Grails和到位桶
- 12. Xcode和到位桶
- 13. 爪哇哈希碼和桶大小 - 關係
- 14. 家釀沒有這樣的小桶
- 15. 如何手動計算Android設備的大小桶(不是編程)
- 16. 動態獲取Amazon S3存儲桶中文件的大小
- 17. 算法對齊固定大小的水桶
- 18. 計算所有文件的大小水桶S3
- 19. R:將加權列拆分成大小相等的桶
- 20. java中散列表桶的大小是多少?
- 21. 無序容器桶的大小散列函數?
- 22. 如何使用Node.js獲取Amazon S3存儲桶的總大小?
- 23. 與s3桶(lambda風格)同步gs桶
- 24. 令牌桶或漏桶消息
- 25. AWS S3用於IAM用戶或Root帳戶的最大桶數?
- 26. 即使該存儲桶中的項目計數爲0,如何使用大小寫聲明保留存儲桶?
- 27. 如何從最小編號到最大編號 - Java?
- 28. 與到位桶和ToritoiseHg
- 29. S3和半公共桶
- 30. 哈希表和桶陣列
感謝您的想法。我現在清楚桶的大小。很值得,但我想最大不會。有用的桶。假設兩個連續的數據集具有低頻率,將它們放入具有較高附加頻率的一個數據集中會更有用。本質上,我試圖說不。的桶是一個動態變量,必須根據數據集及其頻率進行選擇。必須有一些算法來選擇否。的水桶。 10個桶(假設)可能在一種情況下看起來不錯,而在另一種情況下可能不會。 – user1425322
@ user1425322:這種方法會爲您提供'k'數據集,所有這些數據集都有望增加頻率。這裏的'k'是你需要預定義的參數。 – amit
我所擁有的是一個數據集,它們的頻率看起來像一條正常的曲線(就像你說的那樣)。但是我想要一些水桶(數字是未知的),以最好的方式容納所有數據集。固定不。的桶會在不同數據集的情況下導致沉悶的表示。任何想法或算法關於這個。 – user1425322