2011-04-26 242 views
7

任何人都可以解釋WEKA中K-Means聚類的輸出實際上意味着什麼。WEKA K-Means聚類

例如

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0 

什麼列中的數字實際上意味着,它說聚類中心上表中,但怎麼可能,以確定哪些兩個集羣的質心?

如果有人能解釋什麼數字意味着我會非常感激。

如果任何人有任何想法如何完成集羣的輪廓評估發現,也將是偉大的。

感謝

回答

3

第一欄爲您提供了總人口重心。第二列和第三列分別給出了簇0和簇1的質心。每行給出特定維度的質心座標。我相信你需要刷上你的K-means。找到質心是算法的重要組成部分。質心是特定運行算法的結果,並不是唯一的 - 不同的運行可能會生成不同的質心集。

詳情請參閱Michael Abernethy's description of Weka clustering

-1

如果屬性是標稱屬性,則爲集羣中的屬性使用最頻繁的值。 如果屬性是數字,請使用羣集中屬性的平均值。 檢查this link瞭解更多詳情。

3

只是第一步,

  1. 保存在可視化標籤作爲ARFF文件中的情節。

  2. 用weka打開它,點擊編輯,你會自動看到每個實例屬於哪個簇。

  3. 複製此表到Excel(可視化更容易)

  4. 使用Excel或MATLAB找到silhoutte,凝聚力,分離的經典方法。

+0

我試過了,但我只能看到數據但沒有集羣號碼? – Atul 2013-04-17 07:19:23

+0

我試圖應用過濾器(AddCluster),它工作。 – Atul 2013-04-17 07:46:21

+0

這項工作!無需應用過濾器。只需將weka集羣可視化窗格中的文件保存爲arff文件並以weka打開即可。將創建一個名爲「cluster」的新屬性。 – Supun 2014-02-18 16:24:14

0

首先聚類是一種描述性的統計方法。其次,算法Kmeans需要事先輸入聚類數量,以找到聚類的最佳數量,幾種統計方法。第三,數字數據的質心是數據的算術平均值,因此這些數據代表組數據。