聚類二進制數據

我想執行以下數據聚類分析（樣品）：聚類二進制數據

ID  CODE1  CODE2  CODE3  CODE4  CODE5  CODE6 
    ------------------------------------------------------------------ 
    00001  0   1   1   0   0   0 
    00002  1   0   0   0   1   1 
    00003  0   1   0   1   1   1 
    00004  1   1   1   0   1   0 
    ...

其中1表示該代碼的一個人的存在，以及0不存在.. 是k均值或最適合聚類這類數據的代碼（大約一百萬個不同ID）的層次聚類，以及哪個距離測量？如果這兩種方法都不合適，您認爲最合適的是什麼？

謝謝

來源

2013-07-27 user2578185

不，k-means對二進制數據沒有太大意義。

因爲k-means計算意味着。但是，二進制數據的平均向量是什麼？

您的羣集「中心」將不是您的數據空間的一部分，也不是您的輸入數據。這對我來說似乎不是一個合適的「中心」，因爲它與你的對象完全不同。

很可能，您的羣集「中心」最終會變得比實際羣集成員更相似，因爲它們位於中心某處，並且您的所有數據都處於角落。

嚴重的是，調查您的數據類型的相似性函數。然後選擇一個適用於該距離函數的聚類算法。分層聚類非常普遍，但非常緩慢。但是你不必使用40年前的算法，你可能想要研究更現代的東西。

來源

2013-07-27 17:24:19

聚類二進制數據

回答

相關問題