Cluster the following bitsequences using hierarchical clustering. If d(:,:) defines the
distace between two bitsequences a and b, d(a,b) = Hamming-Distance(a,b) . If C1 and C2 are
two clusters, the distance between C1 and C2 is d(C1,C2) = 1/|C1||C2| Summation(a belongs C1, b belongs C2) d(a,b).
Show the cluster hierarchchy with all the intermediate steps.
1 10001011
2 11010111
3 00101010
4 00011110
5 10101110
6 11100001
我的解決方案: 我會找到所有對之間的漢明距離,並選擇至少一個是C3和C5(漢明距離爲2)的那個。現在可以將它合併到一個新的羣集中。
我的擔心是什麼確切意味着合併在這裏?我該怎麼做? 或者只是我保持原樣,並將其命名爲新的羣集?
另外爲了計算平均給出的公式除以| C1 |和| C2 |。那麼,這是否意味着我必須在這裏除以元素的數量(這是每個羣組的8倍,它被合併到羣集中)?
任何幫助是非常感謝。 謝謝。
謝謝你的幫助。 – smandape