2014-02-07 147 views
0

比方說,我有一些數據,數組的數組或數據幀,如:Refiguring K-均值聚類指標分析

In [4]: df 
Out[4]: 
    a b c d 
0 1 0 1 2 
1 0 1 0 3 
2 0 0 0 4 

製作了一段K-意味着它集羣,像這樣:

centroids, _ = cluster.vq.kmeans(rep.values, nb_clusters, iter=100) 
idx, _ = cluster.vq.vq(rep.values, centroids) 

我得到了兩個對我有意義的集羣。但是,我想知道一種方法來了解K-means如何/爲何到達此羣集,例如。 哪個特徵a,b,c,d與分離簇最相關,等等。

有沒有人知道一種方法來做到這一點?或尋找一種方法來做到這一點?在蟒蛇,或更理論?

在此先感謝您考慮我的問題。

回答

1

K-means不處理任何特殊的變量。

相反,它對規模非常敏感。重新縮放數據(每個維度的縮放比例不同),結果可能會發生顯着變化。

如果你想有一個決策樹樣的解釋,列車上的集羣決策樹 - K-手段不能提供這一點,但沒有什麼能阻止你從分析聚類結果...其實,你應該總是仔細分析一個聚類結果,因爲實際上它經常和隨機劃分一樣好。因此,在您的實驗設置中始終包括「隨機voronoi細胞分區」,以確保您實際上有一些改進。