2013-10-14 98 views
1

我正在使用weka做K-means聚類,當我嘗試了一個小集合,並發現集羣內誤差平方和(WCSS)值不是我認爲的那樣。什麼是weka的kmeans輸出(WCSS)是什麼意思?

我以爲WCSS是所有元素給它的平方距離的總和的集羣中心, 但價值是不正確的:

例如: 數據集是:

3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0 
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0 
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0 
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0 
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0 
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0 
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0 
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0 
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0 

和集羣(只有一個)中心是3, 2, 3, 0, 1, 1, 1, 0, 1

weka輸出WCSS是39,但根據我的理解,應該是133。 我知道我對WCSS的含義一定是錯的,誰能告訴我這件事?

回答

1

我相信所報道的是WCSS屬性值已經正常化後。不幸的是,我無法複製你的結果。

但是,使用你的數據集SimpleKMeans(K = 1),我得到了以下結果:

  • 之前正常化的屬性值,WCSS是26.4375
  • 正常化的屬性值後,WCSS是26.4375

這個source也表明Weka的K均值算法自動歸一化屬性值。

+0

您獲得了多少個羣集? – doctorlove

+0

我將簇的數量設置爲1,但我意識到我將他的簇中心添加爲數據點!我現在正在更新WCSS值,儘管這還不是他的結果。 – Walter

+1

正常化似乎是這樣的:http://weka.8497.n7.nabble.com/questions-about-clustering-td3805.html恥辱我們不能得到相同的數字 – doctorlove

0

@relation癌症

@attribute A1 {1,2,3,4,5,6}

@attribute A2 {0,1,2}

@attribute A3 {0 ,1,2,3,4,5,6,7,8,9,10}

@attribute A4 {0,1,2,3,4,5,8}

@attribute A5 {0,1}

@attribute A6 {0,1,2}

@attribute A7 {0,1}

@attribute A8 {0,1,2,3,4}

@attribute A9 {0 ,1}

@attribute標籤{0,1}

@data

3,2,3,0,0,2,1,0,1,1

4, 1,3,0,1,0 ,1,4,1,0

4,1,7,0,1,1,0,1,1,1

3,2,7,0,0,2,1,1 ,0,0

3,2,6,1,0,1,0,2,1,1

4,2,5,1,1,1,1,0,0,0

4,1,8,0,1,2,0,0,1,0

3,2,2,0,1,1,0,0,1,0

3,2,0,0,1,1,1,3,1 ,0

+0

K-means的意思是*連續*值,而不是分類數據(即使您對您的類別進行二進制編碼或給它們輸入數字標籤)。因爲**的意思不再有什麼意義了**。 –