2016-03-07 54 views
-3

我有一個數據集(〜4k樣本)的數據集最適合聚類方法串 - 非常一般
樣本子類型:
串 樣品型號:數 - 可以是無
簽名:數數組[10]
sampleID:串 - 唯一id
爲含有下列結構的10維數值陣列

我想基於「簽名」來聚類樣品(I有一個功能,措施「距離」b一個簽名到另一個簽名)。
因此,當我遇到新的簽名時,我將能夠告訴樣本屬於哪種類型/子類型。
我應該使用哪種算法?

P.S. (我正在使用python和scikit-learn),我還需要以某種方式可視化結果。

+1

要使用哪種算法取決於數據的屬性。你的第一站當然應該是http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html – tripleee

回答

0

由於您已經有了距離函數,而且您的數據集很小,只需使用HAC(所有聚類算法的祖父)即可。