我想用K-means方法做一個聚類,但我想衡量我的聚類性能。 我不是專家,但我渴望更多地瞭解羣集。Scikit K-means聚類性能測量
這裏是我的代碼:
import pandas as pd
from sklearn import datasets
#loading the dataset
iris = datasets.load_iris()
df = pd.DataFrame(iris.data)
#K-Means
from sklearn import cluster
k_means = cluster.KMeans(n_clusters=3)
k_means.fit(df) #K-means training
y_pred = k_means.predict(df)
#We store the K-means results in a dataframe
pred = pd.DataFrame(y_pred)
pred.columns = ['Species']
#we merge this dataframe with df
prediction = pd.concat([df,pred], axis = 1)
#We store the clusters
clus0 = prediction.loc[prediction.Species == 0]
clus1 = prediction.loc[prediction.Species == 1]
clus2 = prediction.loc[prediction.Species == 2]
k_list = [clus0.values, clus1.values,clus2.values]
現在,我有我的KMEANS和我的三個集羣存儲,我試圖用Dunn Index來衡量我的集羣的性能(我們尋求更大的指數) 爲此我導入jqm_cvi包(可here)
from jqmcvi import base
base.dunn(k_list)
我的問題是:是否有任何集羣內部評估ALRE在Scikit Learn中存在ady(除了來自silhouette_score)?或者在另一個知名的圖書館?
謝謝您的時間
你可以在這裏找到的概述:http://scikit-learn.org/stable/modules/clustering.html(2.3.9聚類性能評估)從鏈接 –
大多數性能上面的算法但是依賴, ,在「地面真相」標籤上。 Scikit Learn上唯一可用的內部評估算法是silhouette_score和Calinski-Harabaz索引,對嗎? –
http://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation中給出了許多性能評估策略 –