2015-03-02 71 views
0

有幾個衆所周知的措施,如輪廓寬度(SW),Davies-Bouldin指數(DB),Calinski-Harabasz指數(CH)和Dunn指數。 我們怎麼能說聚類質量衡量是好的?
聚類質量度量是否有某種度量是好的?我們怎麼能說聚類質量衡量是好的?

此外,

「的算法,產生簇具有高唐恩索引是更理想的」 -Wikipedia

「具有高輪廓值的對象被認爲是很好羣集」 -Wikipedia

「產生具有最小Davies-Bouldin指數的聚類集合的聚類算法被認爲是最佳算法「-Wikipedia

這些值應該高或低多少?有沒有公制數字?

任何一個人可以給我一個小例子,使用數據集或IRIS數據集上的聚類質量度量來表示特定的聚類質量度量是好的嗎?

回答

0

也許一個簡單的出發點是:

「集羣內的元素都是一樣的是,他們從 不同的元素在不同的集羣」。

顯然有各種度量指標來量化相似度與差異 - 以及密度與距離等考慮因素。

斯坦福NLP項目有一個有用的參考是平易近人:http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

+0

我的意思是,你怎麼能說具體的聚類質量的措施[CQM]輪廓寬度/ Davies-爾丁指數/ Calinski-Harabasz指數/鄧恩指數比其他的更好嗎? – Ramseyl 2015-03-03 01:08:12