2012-09-02 33 views
1

我有一種算法可以將數據分組爲一個分層集羣樹。該算法是Toby Seagram編程集體智能中描述的算法。樹輸出是一個二叉樹,每個節點都有一個「距離」值,告訴你兩個子節點有多遠。確定分層集羣中的組

然後,我可以將它顯示爲樹形圖,並且它使得人們可以很容易地將這些值組合在一起。然而,我很難想出一個自動決定組應該是什麼的算法。我想能夠自動判斷:

  • 哪些點應放在每個組

在組

  • 的數量是有一個標準的算法呢?

  • 回答

    5

    我認爲沒有默認的方式來做到這一點。簡單的「手冊」的方法將兩種:

    • 指定你想要/期望
    • 設置兩個節點之間的最大距離閾值簇的數目;任何具有較大距離的節點都屬於另一個羣集

    有一些自動方法可用於determine the number of clustersRDynamic Tree Cut package自動處理這個問題,也可以使用pvclust。這裏有兩種方法可以解決這個問題,Salvador (2002)Daniels (2006)

    +0

    感謝您的答案和許多有趣的鏈接。 – Robert

    0

    我發現Calinski-Harabasz指數(也稱爲方差比標準)適用於由等級聚類生成的樹狀圖。你可以在this paper找到更多的信息(和一個比較研究)。