我正在研究一種算法,它可以猜測K值是否爲kmeans聚類。我想我正在尋找可用作比較的數據集,或者可能是幾個數據集,其中簇的數量是「已知的」,所以我可以看到我的算法在猜測時如何進行K.聚類基線比較,KMeans
回答
我會首先檢查數據集的UCI存儲庫: http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table
我相信那裏有一些標籤。
但是也有一些經常在報紙作爲基線,如20newsgroups使用文本聚類數據集: http://qwone.com/~jason/20Newsgroups/
另一位偉大的方法(一說我的論文的椅子一貫主張)是構建你自己的小示例數據集。最好的辦法是從小處着手,嘗試一些只有兩個或三個變量的圖形化表示,然後自己標記這些簇。
一個小的自制數據集的附加好處是,你知道答案,它是非常適合調試。
既然你是專注於k
-意味着,你有沒有考慮使用各種措施(Silhouette,Davies-Bouldin等)來找到最佳k
?
實際上,「最優」k可能不是一個好的選擇。大多數情況下,人們希望選擇更大的k,然後更詳細地分析生成的集羣/原型,以便從多個k均值分區中構建集羣。
我正在研究確定k的低成本手段。我們必須能夠處理TB數據,因此它必須快速且可並行化。這些方法看起來像犧牲了性能,有利於提高準確性。 – user1865047
您仍然可以使用它們來驗證啓發式是否執行正常。另外,實際上,結核病的k-means並沒有多大意義。以1%的樣本(或更少)運行它,你將得到基本相同的結果。這是統計數據。除非您有偏見,否則更多數據只會更改最後幾位數字。如果你的代碼不好,你甚至可能會遇到整個數據集的數值問題...... –
iris flower dataset是一個很好的開始,該聚類很好地工作。
下載here
- 1. Matlab kmeans聚類非線性可分數據
- 2. 聚類標籤和聚類中心(R中的kmeans)
- 3. 計算Kmeans聚類的誤差
- 4. 使用mahout進行Kmeans聚類
- 5. Kmeans聚類識別R中的知識
- 6. Kmeans聚類和文本挖掘在R
- 7. KMEANS文本數據進行聚類
- 8. kmeans聚類與數據框(scipy)
- 9. 將kmeans聚類結果導出到.csv
- 10. 使用scipy kmeans進行聚類分析
- 11. Kmeans聚類如何在tensorflow中工作?
- 12. opencv kmeans聚類的輸入矩陣
- 13. R繪製kmeans與熱圖聚類
- 14. 平分文檔聚類的KMeans
- 15. 在Carrot2中比較聚類結果
- 16. VS2010 Profiler比較報告基線/比較值
- 17. 如何比較氧基類參考類?
- 18. Python的基本類型比較V/S對象比較
- 19. 如何使用kmeans聚類解釋更高百分比的點變異?
- 20. 根據聚類中心更改R中kmeans產生的聚類數
- 21. 在反射中比較基本類型
- 22. WEKA類映射和減少KMeans階段在hadoop上聚類
- 23. 基本SQL比較
- 24. 比較類型
- 25. Java - 比較類?
- 26. STAssertEqualObjects比較類
- 27. opencv kmeans聚簇多個墊子
- 28. 如何解決這與kmeans聚類和使用餘弦similiraty
- 29. 聚類算法的功能縮放(規範化)(如Kmeans&EM)
- 30. 如何繪製kmeans聚類在python 4維數據?
但自制的,合成數據集不考慮認真對待有關精度/收斂問題 – rano
偉大的信息,謝謝! – user1865047
真的,rano,但是如果你試圖找到K的最佳值,那麼你真的需要在個案的基礎上做到這一點。 – user2077035