我有一種算法可以將數據分組爲一個分層集羣樹。該算法是Toby Seagram編程集體智能中描述的算法。樹輸出是一個二叉樹,每個節點都有一個「距離」值,告訴你兩個子節點有多遠。確定分層集羣中的組
然後,我可以將它顯示爲樹形圖,並且它使得人們可以很容易地將這些值組合在一起。然而,我很難想出一個自動決定組應該是什麼的算法。我想能夠自動判斷:
- 哪些點應放在每個組
在組
我有一種算法可以將數據分組爲一個分層集羣樹。該算法是Toby Seagram編程集體智能中描述的算法。樹輸出是一個二叉樹,每個節點都有一個「距離」值,告訴你兩個子節點有多遠。確定分層集羣中的組
然後,我可以將它顯示爲樹形圖,並且它使得人們可以很容易地將這些值組合在一起。然而,我很難想出一個自動決定組應該是什麼的算法。我想能夠自動判斷:
在組
我認爲沒有默認的方式來做到這一點。簡單的「手冊」的方法將兩種:
有一些自動方法可用於determine the number of clusters。 R
有Dynamic Tree Cut package自動處理這個問題,也可以使用pvclust。這裏有兩種方法可以解決這個問題,Salvador (2002)和Daniels (2006)。
我發現Calinski-Harabasz指數(也稱爲方差比標準)適用於由等級聚類生成的樹狀圖。你可以在this paper找到更多的信息(和一個比較研究)。
感謝您的答案和許多有趣的鏈接。 – Robert