2013-01-17 40 views
5

我正在評估羣集某些數據所需的羣集數量是多少。確定羣集的最佳數量和Davies-Bouldin指數?

我知道這可以使用戴維斯 - 鮑爾丁指數(DBI)。

要使用DBI,您必須計算任意數量的集羣,並且將DBI最小化的集羣對應於所需的正確集羣數量。

的問題是:

怎麼知道2簇比使用DBI 1個集羣更好?那麼,當我只有一個羣集時,如何計算DBI?

回答

5

只考慮所有簇的平均值DBI顯然不是一個好主意。

當然,增加的簇的數目 - k,而不受處罰,將始終降低DBI的量在所得聚類,爲零DBI極端情況下,如果每個數據點被認爲是其自己的集羣(因爲每個數據點與自己的質心重疊)。

如何知道2個集羣是否優於1個集羣使用DBI?那麼,當我只有一個羣集時,如何計算DBI?

因此,如果只使用平均值DBI作爲性能指標,很難說哪一個更好。

一個很好的實用方法是使用Elbow method

另一種方法查看作爲羣集數量函數解釋的方差百分比:您應該選擇一些羣集,以便添加另一個羣集不會給出更好的數據建模。更準確地說,如果你繪製了聚類所解釋的方差相對於聚類數量的百分比,那麼第一類聚類會增加很多信息(解釋很多方差),但是在某一點上,邊際增益會下降,從而給出一個角度圖形。在這一點上選擇聚類的數量,因此是「肘標準」。

enter image description here

與各自以選擇最佳聚類數其他一些很好的選擇: