解釋聚類指標

我正在通過Scikit-learn中的k-means對398個樣本，306個特徵進行聚類。特徵矩陣是稀疏的，並且簇的數目爲4。爲了改進聚類，我試圖兩種方法：解釋聚類指標

聚類後，我使用ExtraTreesClassifier（）進行分類和計算的功能重要度標記的（樣品聚類）

我用PCA到特徵尺寸降低到2. 我已經計算以下度量（SS,CH，SH）

Method     sum_of_squares, Calinski_Harabasz, Silhouette 

    1 kmeans     31.682  401.3   0.879 
    2 kmeans+top-features  5989230.351 75863584.45  0.977 
    3 kmeans+PCA    890.5431893 58479.00277  0.993

我的問題是：

據我所知，如果平方和較小，聚類方法的性能更好，而如果輪廓接近1聚類方法的性能更好。例如，在最後一行中，與第一行相比，正方形和輪廓的總和都增加了。
如何選擇哪種方法具有更好的性能？

來源

2016-08-03 YNr

即使這是一個有關集羣診斷的問題，我認爲它更適合於[CrossValidated]（http://stats.stackexchange.com） – C8H10N4O2

從不比較不同投影，變換或數據集中的平方和和類似度量。

要明白爲什麼，只需將每個特徵乘以0.5 - 您的SSQ將下降0.25。所以要「改善」你的數據集，你只需要將它縮小到一個很小的尺寸......

這些指標必須只能用於完全相同的輸入和參數。你甚至不能用平方和來比較k-均值和不同的k值，因爲較大的k值會贏。你所能做的只是多次隨機嘗試，然後保持你找到的最小最小值。

來源

2016-08-03 21:48:16

有306個功能，您在curse of dimensionality下。在306維中聚類是沒有意義的。因此，我不會在集羣之後選擇功能。

爲了獲得可解釋的結果，您需要需要以降低維度。對於398個樣品，您需要低維（2,3或4個）。您的維度爲2的PCA很好。您可以嘗試3.

在聚類之前選擇重要特徵的方法可能會有問題。無論如何，是2/3/4「最佳」功能在你的情況下有意義嗎？

來源

2016-08-05 07:20:43 lanenok

謝謝。我也是這樣做的。現在，我對這些特徵進行了歸一化處理，然後使用PCA將維度降低到了4.所得到的PCA組件覆蓋了58％的特徵變化。 – YNr

解釋聚類指標

回答

相關問題