2016-08-03 44 views
0

我正在通過Scikit-learn中的k-means對398個樣本,306個特徵進行聚類。特徵矩陣是稀疏的,並且簇的數目爲4。 爲了改進聚類,我試圖兩種方法:解釋聚類指標

  1. 聚類後,我使用ExtraTreesClassifier()進行分類和計算的功能重要度標記的(樣品聚類)

  2. 我用PCA到特徵尺寸降低到2. 我已經計算以下度量(SS,CHSH

    Method     sum_of_squares, Calinski_Harabasz, Silhouette 
    
        1 kmeans     31.682  401.3   0.879 
        2 kmeans+top-features  5989230.351 75863584.45  0.977 
        3 kmeans+PCA    890.5431893 58479.00277  0.993 
    

我的問題是:

  1. 據我所知,如果平方和較小,聚類方法的性能更好,而如果輪廓接近1聚類方法的性能更好。例如,在最後一行中,與第一行相比,正方形和輪廓的總和都增加了。
  2. 如何選擇哪種方法具有更好的性能?
+1

即使這是一個有關集羣診斷的問題,我認爲它更適合於[CrossValidated](http://stats.stackexchange.com) – C8H10N4O2

回答

2

從不比較不同投影,變換或數據集中的平方和和類似度量。

要明白爲什麼,只需將每個特徵乘以0.5 - 您的SSQ將下降0.25。所以要「改善」你的數據集,你只需要將它縮小到一個很小的尺寸......

這些指標必須只能用於完全相同的輸入和參數。你甚至不能用平方和來比較k-均值和不同的k值,因爲較大的k值會贏。你所能做的只是多次隨機嘗試,然後保持你找到的最小最小值。

1

有306個功能,您在curse of dimensionality下。在306維中聚類是沒有意義的。因此,我不會在集羣之後選擇功能。

爲了獲得可解釋的結果,您需要需要以降低維度。對於398個樣品,您需要低維(2,3或4個)。您的維度爲2的PCA很好。您可以嘗試3.

在聚類之前選擇重要特徵的方法可能會有問題。無論如何,是2/3/4「最佳」功能在你的情況下有意義嗎?

+0

謝謝。我也是這樣做的。現在,我對這些特徵進行了歸一化處理,然後使用PCA將維度降低到了4.所得到的PCA組件覆蓋了58%的特徵變化。 – YNr