2010-05-01 66 views
1

這是一個關於k-means聚類算法的問題。我有以下幾點和數據集羣S1。任何人都可以告訴我如何計算與此集羣相關的總誤差?我知道這不是一個嚴格的編程問題,但我需要它用於我的算法。我認爲答案應該是4/3,但我不知道如何計算這個。誰能幫我?如何計算此聚類中總誤差的度量

x1= (2.0,1.0) 
x2= (2.0,2.0) 
x3= (1.0,2.0) 

S1={ x1, x2, x3 } 

回答

2

有很多方法來計算錯誤。這是一個。

首先計算集合的質心,C1 =(x1 + x2 + x3)/ 3。然後將誤差計算爲與質心距離之和:E1 = d(C1-x1)+ d(C1-x2)+ d(C1-x3)。

1

我不得不在過去的幾周內搜索類似的東西。與大多數事情一樣,找到正確的名字也有很大幫助。您正在尋找一個集羣有效性指數。 我發現算法(和相關數學)的一個有用的來源是Gan,Ma和Wu的「數據聚類理論,算法和應用」的第17章。從亞馬遜價格不低於100美元,但我會發現本書的其餘部分很有用。 雖然它涵蓋了很多這些指標,但缺乏對優勢和劣勢的良好討論,所以您需要一些在線搜索。

最後我嘗試了Davies Bouldin Index和Dunn's Index。鄧恩工作得更好,但計算速度很慢,我決定使用質心重心距離(而不是組件點重心距離)和質心最大半徑而不是真實直徑的簡化版本。到目前爲止,這對我來說很好。

大部分各種指標都使用簇大小和分離度量。