2014-03-26 37 views
-1

我們應該如何根據平均誤差指數或精度或召回進行羣集驗證? 我的疑問是,說使用數據集D,並遵循我的算法,我得到6個標記爲c1,c2,c3,c4,c5,c6的簇,每個簇中有50,60,30,40,10,10,10個元素分別 。通過與地面真相比較進行羣集驗證

在數據集D中,實際的聚類標籤分別爲1,2,3 ... 6,55,45,5,35,10,60個元素。

我的集羣標籤c1必須與實際集羣標籤1,c2到2,c3到3,...等對應嗎?

在這種情況下,我將如何計算平均錯誤指數?

回答

0

任何好的聚類工具包(例如ELKI)都應該帶有數十個的驗證措施。 ARI可能是最受歡迎的之一。

無論如何,有的文獻就此;任何關於聚類分析的教科書都應該涵蓋驗證的主題。任何體面的軟件都應該包含這樣的驗證措施。

也許你可以閱讀這些,然後回來一個更精確的問題?

畢竟,你剛剛提出的問題已經在文獻中得到了回答。在比較兩個結果時,您並不是第一個注意到並不總是有1:1對應的簇。 ARI是一個,一般的原則是查看對對(如果兩個元素在同一個集羣中,則存在一對)並計算這些對的精確度,召回率等。

+0

我們如何驗證基於密度的聚類?哪種度量將是驗證密度聚類結果的最佳方法? – Bess

+0

我不知道。我不認爲基於密度的驗證很有意義,因爲它只會報告基於密度的聚類提供了最佳的基於密度的聚類。真是一個驚喜。 驗證的最合理的方法是實際*使用*結果。在某種程度上看起來效果不錯,但在實踐中不起作用。 –

+0

如果你有基礎事實,所有這些措施都可以用來*評估*密度聚類。這些措施不使用密度,但如果您有例如一個DBSCAN集羣和「真相」標籤,ARI是一種流行的措施。 –