聚類基線比較，KMeans

我正在研究一種算法，它可以猜測K值是否爲kmeans聚類。我想我正在尋找可用作比較的數據集，或者可能是幾個數據集，其中簇的數量是「已知的」，所以我可以看到我的算法在猜測時如何進行K.聚類基線比較，KMeans

我相信那裏有一些標籤。

但是也有一些經常在報紙作爲基線，如20newsgroups使用文本聚類數據集： http://qwone.com/~jason/20Newsgroups/

另一位偉大的方法（一說我的論文的椅子一貫主張）是構建你自己的小示例數據集。最好的辦法是從小處着手，嘗試一些只有兩個或三個變量的圖形化表示，然後自己標記這些簇。

一個小的自制數據集的附加好處是，你知道答案，它是非常適合調試。

2013-07-31 19:45:17 user2077035

但自制的，合成數據集不考慮認真對待有關精度/收斂問題 – rano

偉大的信息，謝謝！ – user1865047

真的，rano，但是如果你試圖找到K的最佳值，那麼你真的需要在個案的基礎上做到這一點。 – user2077035

既然你是專注於k-意味着，你有沒有考慮使用各種措施（Silhouette，Davies-Bouldin等）來找到最佳k？

實際上，「最優」k可能不是一個好的選擇。大多數情況下，人們希望選擇更大的k，然後更詳細地分析生成的集羣/原型，以便從多個k均值分區中構建集羣。

2013-08-01 08:14:50

我正在研究確定k的低成本手段。我們必須能夠處理TB數據，因此它必須快速且可並行化。這些方法看起來像犧牲了性能，有利於提高準確性。 – user1865047

您仍然可以使用它們來驗證啓發式是否執行正常。另外，實際上，結核病的k-means並沒有多大意義。以1％的樣本（或更少）運行它，你將得到基本相同的結果。這是統計數據。除非您有偏見，否則更多數據只會更改最後幾位數字。如果你的代碼不好，你甚至可能會遇到整個數據集的數值問題...... –

iris flower dataset是一個很好的開始，該聚類很好地工作。

下載here

2013-08-01 08:50:29 Mike

回答