2013-07-27 157 views
1

我想執行以下數據聚類分析(樣品):聚類二進制數據

ID  CODE1  CODE2  CODE3  CODE4  CODE5  CODE6 
    ------------------------------------------------------------------ 
    00001  0   1   1   0   0   0 
    00002  1   0   0   0   1   1 
    00003  0   1   0   1   1   1 
    00004  1   1   1   0   1   0 
    ... 

其中1表示該代碼的一個人的存在,以及0不存在.. 是k均值或最適合聚類這類數據的代碼(大約一百萬個不同ID)的層次聚類,以及哪個距離測量?如果這兩種方法都不合適,您認爲最合適的是什麼?

謝謝

回答

1

不,k-means對二進制數據沒有太大意義。

因爲k-means計算意味着。但是,二進制數據的平均向量是什麼?

您的羣集「中心」將不是您的數據空間的一部分,也不是您的輸入數據。這對我來說似乎不是一個合適的「中心」,因爲它與你的對象完全不同。

很可能,您的羣集「中心」最終會變得比實際羣集成員更相似,因爲它們位於中心某處,並且您的所有數據都處於角落。

嚴重的是,調查您的數據類型的相似性函數。然後選擇一個適用於該距離函數的聚類算法。分層聚類非常普遍,但非常緩慢。但是你不必使用40年前的算法,你可能想要研究更現代的東西。