2013-07-31 161 views
0

我正在研究一種算法,它可以猜測K值是否爲kmeans聚類。我想我正在尋找可用作比較的數據集,或者可能是幾個數據集,其中簇的數量是「已知的」,所以我可以看到我的算法在猜測時如何進行K.聚類基線比較,KMeans

回答

0

我會首先檢查數據集的UCI存儲庫: http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

我相信那裏有一些標籤。

但是也有一些經常在報紙作爲基線,如20newsgroups使用文本聚類數據集: http://qwone.com/~jason/20Newsgroups/

另一位偉大的方法(一說我的論文的椅子一貫主張)是構建你自己的小示例數據集。最好的辦法是從小處着手,嘗試一些只有兩個或三個變量的圖形化表示,然後自己標記這些簇。

一個小的自制數據集的附加好處是,你知道答案,它是非常適合調試。

+0

但自制的,合成數據集不考慮認真對待有關精度/收斂問題 – rano

+0

偉大的信息,謝謝! – user1865047

+0

真的,rano,但是如果你試圖找到K的最佳值,那麼你真的需要在個案的基礎上做到這一點。 – user2077035

0

既然你是專注於k-意味着,你有沒有考慮使用各種措施(Silhouette,Davies-Bouldin等)來找到最佳k

實際上,「最優」k可能不是一個好的選擇。大多數情況下,人們希望選擇更大的k,然後更詳細地分析生成的集羣/原型,以便從多個k均值分區中構建集羣。

+0

我正在研究確定k的低成本手段。我們必須能夠處理TB數據,因此它必須快速且可並行化。這些方法看起來像犧牲了性能,有利於提高準確性。 – user1865047

+0

您仍然可以使用它們來驗證啓發式是否執行正常。另外,實際上,結核病的k-means並沒有多大意義。以1%的樣本(或更少)運行它,你將得到基本相同的結果。這是統計數據。除非您有偏見,否則更多數據只會更改最後幾位數字。如果你的代碼不好,你甚至可能會遇到整個數據集的數值問題...... –