通過與地面真相比較進行羣集驗證

-1

我們應該如何根據平均誤差指數或精度或召回進行羣集驗證？我的疑問是，說使用數據集D，並遵循我的算法，我得到6個標記爲c1，c2，c3，c4，c5，c6的簇，每個簇中有50,60,30,40,10,10,10個元素分別。通過與地面真相比較進行羣集驗證

在數據集D中，實際的聚類標籤分別爲1,2,3 ... 6,55,45,5,35,10,60個元素。

我的集羣標籤c1必須與實際集羣標籤1，c2到2，c3到3，...等對應嗎？

在這種情況下，我將如何計算平均錯誤指數？

2014-03-26 Bess

任何好的聚類工具包（例如ELKI）都應該帶有數十個的驗證措施。 ARI可能是最受歡迎的之一。

無論如何，有噸的文獻就此;任何關於聚類分析的教科書都應該涵蓋驗證的主題。任何體面的軟件都應該包含這樣的驗證措施。

也許你可以閱讀這些，然後回來一個更精確的問題？

畢竟，你剛剛提出的問題已經在文獻中得到了回答。在比較兩個結果時，您並不是第一個注意到並不總是有1：1對應的簇。 ARI是一個，一般的原則是查看對對（如果兩個元素在同一個集羣中，則存在一對）並計算這些對的精確度，召回率等。

2014-03-27 01:00:04

我們如何驗證基於密度的聚類？哪種度量將是驗證密度聚類結果的最佳方法？ – Bess

我不知道。我不認爲基於密度的驗證很有意義，因爲它只會報告基於密度的聚類提供了最佳的基於密度的聚類。真是一個驚喜。驗證的最合理的方法是實際*使用*結果。在某種程度上看起來效果不錯，但在實踐中不起作用。 –

如果你有基礎事實，所有這些措施都可以用來*評估*密度聚類。這些措施不使用密度，但如果您有例如一個DBSCAN集羣和「真相」標籤，ARI是一種流行的措施。 –

回答