我正在通過Scikit-learn中的k-means對398個樣本,306個特徵進行聚類。特徵矩陣是稀疏的,並且簇的數目爲4。 爲了改進聚類,我試圖兩種方法:解釋聚類指標
聚類後,我使用ExtraTreesClassifier()進行分類和計算的功能重要度標記的(樣品聚類)
我用PCA到特徵尺寸降低到2. 我已經計算以下度量(SS,CH,SH)
Method sum_of_squares, Calinski_Harabasz, Silhouette 1 kmeans 31.682 401.3 0.879 2 kmeans+top-features 5989230.351 75863584.45 0.977 3 kmeans+PCA 890.5431893 58479.00277 0.993
我的問題是:
- 據我所知,如果平方和較小,聚類方法的性能更好,而如果輪廓接近1聚類方法的性能更好。例如,在最後一行中,與第一行相比,正方形和輪廓的總和都增加了。
- 如何選擇哪種方法具有更好的性能?
即使這是一個有關集羣診斷的問題,我認爲它更適合於[CrossValidated](http://stats.stackexchange.com) – C8H10N4O2