2017-03-06 38 views
0

我用簡單的K均值聚類在秧雞如何評價我的聚類算法

聚類後,這一結果顯示

迭代次數開始聚集:9

內平方集羣總和錯誤:570.1974952009115

我的問題:

  1. 錯誤平方和的數量很大這是否意味着我的羣集數是錯誤的?以及如何定義樂觀的羣集數量?

  2. 如何將數據拆分爲訓練和測試集以評估性能?以及如何知道正確的比例?

  3. 如何衡量SSB

回答

0

1.1在K-意味着它是誰決定多少個簇來接。你可能已經知道了。

1.2在k-means中沒有最佳數量的聚類,如「函數圖的全局最大值」所示。您決定尊重您的業務問題。另見「elbow method」,這是一個在實踐中很少有效的半經驗程序。

1.3您可能在您的數據中有異常值,這些異常值使任何聚類操作的平方和大。無論您選擇多少個羣集,異常值總是遠離您的羣集中心。

2.1沒有「最佳」百分比分割。

2.2您可以使用可視化來檢查羣集中是否有重疊。讓觀衆看到「決策界限」也更容易理解。

3.1什麼是SSB?

+0

**我聽說過(運行k-means的次數是可以負擔得起的,每次都改變種子,記錄解決方案,讓你得到最小的平方和錯誤總和),你能幫我怎麼做種子法如果有可用的代碼,你可以幫助我**你可以幫助我的資源解釋了這個話題**對不起,我是說SSE是它的值(在羣集平方誤差內)或它是不同的 – m12345