Refiguring K-均值聚類指標分析

比方說，我有一些數據，數組的數組或數據幀，如：Refiguring K-均值聚類指標分析

In [4]: df 
Out[4]: 
    a b c d 
0 1 0 1 2 
1 0 1 0 3 
2 0 0 0 4

製作了一段K-意味着它集羣，像這樣：

centroids, _ = cluster.vq.kmeans(rep.values, nb_clusters, iter=100) 
idx, _ = cluster.vq.vq(rep.values, centroids)

我得到了兩個對我有意義的集羣。但是，我想知道一種方法來了解K-means如何/爲何到達此羣集，例如。 哪個特徵a，b，c，d與分離簇最相關，等等。

有沒有人知道一種方法來做到這一點？或尋找一種方法來做到這一點？在蟒蛇，或更理論？

在此先感謝您考慮我的問題。

2014-02-07 mazieres

K-means不處理任何特殊的變量。

相反，它對規模非常敏感。重新縮放數據（每個維度的縮放比例不同），結果可能會發生顯着變化。

如果你想有一個決策樹樣的解釋，列車上的集羣決策樹 - K-手段不能提供這一點，但沒有什麼能阻止你從分析聚類結果...其實，你應該總是仔細分析一個聚類結果，因爲實際上它經常和隨機劃分一樣好。因此，在您的實驗設置中始終包括「隨機voronoi細胞分區」，以確保您實際上有一些改進。

2014-02-08 13:14:53

正如其他人指出的那樣，（原始的）K-Means的缺點之一就是它將所有特徵都視爲相同，不管它們與實際問題的相關程度如何。

如果你有興趣在一個版本的K-手段，使不同的功能有不同的權重，你可能需要在本文一起來看看：Minkowski metric, feature weighting and anomalous cluster initializing in K-Means clustering

2014-02-24 09:59:49 TheVoiceInMyHead

回答