0

我在Weka中使用分類器和聚類進行了一些預測。我知道如何分析分類器的結果,但我不知道像K-means這樣的聚類的某些結果真的意味着什麼。我知道集羣的工作有所不同。爲了更清楚我想具體解釋一下表格的全部含義//留言:K-means的解釋結果

編輯:我根據其中一個屬性進行預測。表中生成的3個集羣是否一致到3個答案,那個屬性,或3個聚類是更隨機的東西?我真的可以使用聚類來做出預測嗎?

kMeans 
====== 

Number of iterations: 9 
Within cluster sum of squared errors: 297.46622082142716 
Missing values globally replaced with mean/mode 

Cluster centroids: 
          Cluster# 
Attribute  Full Data   0   1   2 
        (477)  (136)  (172)  (169) 
======================================================= 
Religion   8.6939 7.6691 8.9709 9.2367 
Vote_Criterion  2.7736 2.8971 2.4942 2.9586 
Sex     1.4906 1.4559   2   1 
DateBirth  1930.7652 1937.5147 1920.2965 1935.9882 
Educ    3.2201 3.2721 3.2209 3.1775 
Immigrant   1.6415 1.6838 1.5872 1.6627 
Income    2.4675  2.5 2.5523  2.355 
Occupation   3.6184 3.8162 3.2907 3.7929 
Vote2013     1   2   1   1 




Time taken to build model (full training data) : 0.06 seconds 

=== Model and evaluation on training set === 


    //PLEASE EXPLAIN THE FOLLOWING TABLE 
    Clustered Instances 

    0  136 (29%) 
    1  172 (36%) 
    2  169 (35%) 

EDIT2:該vote2013是具有3個值,1,2和3對3個候選presidents.So投票意向屬性,什麼vote2013是1,2是什麼意思?

回答

0
//PLEASE EXPLAIN THE FOLLOWING TABLE 
Clustered Instances 

0  136 (29%) 
1  172 (36%) 
2  169 (35%) 

三個簇進行了鑑定,0,1和2

  1. 第一集羣136個包含數據點,這是總的477個數據點的29%。
  2. 第二個羣集包含172個數據點,佔總數477個數據點的36%。
  3. 第三個羣集包含169個數據點,佔總數477個數據點的35%。

這似乎很容易 - 我誤解了你的問題嗎?

編輯
您發佈的輸出僅顯示使用k均值標識的聚類。您有三個集羣,其中心由第一個表中顯示的屬性組合給出。

我不知道你是什麼意思「我做基於屬性的一個預言」 - 這個算法可以讓你把一個未知樣品(所有屬性),並確定哪個簇是最接近。這實際上意味着您的數據背景之外很少。 k-means算法會給出不同粒度級別的不同數量的聚類,因此它確實是一種用於識別數據中存在的關係的工具,但這些關係很難通過檢查得出。

如果您使用它進行分類,您應首先確定聚類,然後爲每個聚類指定一個分類,然後通過查找最接近的聚類質心來對輸入樣本進行分類。

+0

我編輯了這個問題。請看我的問題。 – Aristi 2013-04-28 08:21:12

+0

好的,我編輯了我的答案 - 任何幫助? – 2013-04-28 08:32:47

1

這是一個很好的例子,失敗的k-means

而且它實際上不是算法錯誤,但是您在上使用的數據不適用於k-means。讓我來解釋一下什麼是「集羣」找到您K-均值:

集羣#0是在2013年投票(?假設2意味着他們投票)

其餘實例的用戶,集羣#1 sex 2(女性?)和羣集#2是sex 1(男性?)。

問題是k-均值最小化方差。而對於諸如「性別」和「投票」這樣的二元屬性的數據分割,在降低方差方面產生了巨大的改進。但它實際上並沒有產生任何有用的信息!

不要在離散屬性EVER上使用k-means。它優化了一個數學測量 - 平方和 - 這隻對變量有意義連續變量。

+0

我同意k-means按性別和Vote2013分割數據,但有一件事讓我感到困惑 - 如何在分割中發現Vote2013 = 1和2而Vote2013 = 1的總數?性別的情況,總體反映了兩者的混合情況,這更有意義。任何想法發生了什麼? – mcdowella 2013-04-28 12:56:25

+0

vote2013是一個投票意向屬性,有3個值,1,2和3爲3個候選總統。所以,在2013年投票中1,2是什麼意思?(來自EDIT2) – Aristi 2013-04-28 13:58:55

+0

只是一個猜測:也許,因爲它是一個類屬性,它會得到不同的處理。報道多數班級而不是平均分數? – 2013-04-28 23:29:32