1

的情況如下:使用一對計數F值評估層次聚類

我有我已經手動分配給基於其受試者的(地面)羣集文件的數據集。然後我使用Hierarchical Agglomerative Clustering(HAC)來自動聚集相同的數據集。我現在試圖使用計數f-measure對來評估HAC集羣(如Darius Pfitzner,Richard Leibbrandt & David Powers的表徵和相似性測量評估 中所述。

然而,我面臨的問題是,我的手動聚類生成了平面聚類(因此聚類之間沒有關係),而HAC發現的聚類是分層的。因此,在查看樹狀圖時,根據您選擇的深度(水平線),您擁有不同數量的聚類(在深度0(根節點)處,您只有1個聚類;在MAX深度處,聚類數等於數您的數據集中的元素)。

所以,我的問題現在是:

  • 我需要爲了使用一對計數F值來選擇深度(讓我有一組固定的集羣)(還是我失去了什麼東西?)。
  • 如果是這樣,我用什麼標準來確定這個深度?

回答

2

雙計數措施設計用於無重疊平板分區。

如果您嘗試計算它們的重疊或分層結果,您將很容易獲得[0;1]範圍以外的值;所以這些方法顯然不起作用。

所以是的,你必須以某種方式(例如,在一個特定的高度;或爲了達到特定數量的簇)切割樹,以便能夠使用這種評估措施。

如何提取平坦parititioning了分級聚類結果(無論是從聯動聚類,OPTICS或HDBSCAN)最近建議可以在這裏找到:

爲半監督一個框架和從層次聚類的無監督最佳提取
RJGB Campello的,D. Moulavi,A. Zimek,J.桑德
數據挖掘和知識發現,27(3):344-371,2013年

但我還沒有使用過。這聽起來非常有用,並在我的閱讀清單上。

+0

謝謝你的回答。我會看看! – Niels