1
我想執行以下數據聚類分析(樣品):聚類二進制數據
ID CODE1 CODE2 CODE3 CODE4 CODE5 CODE6
------------------------------------------------------------------
00001 0 1 1 0 0 0
00002 1 0 0 0 1 1
00003 0 1 0 1 1 1
00004 1 1 1 0 1 0
...
其中1表示該代碼的一個人的存在,以及0不存在.. 是k均值或最適合聚類這類數據的代碼(大約一百萬個不同ID)的層次聚類,以及哪個距離測量?如果這兩種方法都不合適,您認爲最合適的是什麼?
謝謝