我正在使用weka做K-means聚類,當我嘗試了一個小集合,並發現集羣內誤差平方和(WCSS)值不是我認爲的那樣。什麼是weka的kmeans輸出(WCSS)是什麼意思?
我以爲WCSS是所有元素給它的平方距離的總和的集羣中心, 但價值是不正確的:
例如: 數據集是:
3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0
和集羣(只有一個)中心是3, 2, 3, 0, 1, 1, 1, 0, 1
:
weka輸出WCSS是39,但根據我的理解,應該是133
。 我知道我對WCSS的含義一定是錯的,誰能告訴我這件事?
您獲得了多少個羣集? – doctorlove
我將簇的數量設置爲1,但我意識到我將他的簇中心添加爲數據點!我現在正在更新WCSS值,儘管這還不是他的結果。 – Walter
正常化似乎是這樣的:http://weka.8497.n7.nabble.com/questions-about-clustering-td3805.html恥辱我們不能得到相同的數字 – doctorlove