我有用戶組及其關聯詞。這是我已分組它們:如何表示k數據表示聚類
我已關聯的每個字與數目,且如果用戶沒有任何的這些詞語相關聯的I得到的值0:
谷歌:1 計算器:2 數學:3 編程:4 noword:0
要運行K-means算法我詞語相關聯,如下所示:
username google stackoverflow math programming
user1 1 0 3 0
user2 1 2 0 4
user3 0 2 3 0
user4 1 1 0 4
這是一個正確實施如何對每個用戶進行聚類,並根據他們配置的單詞檢查彼此之間的距離。
我在此基礎實施:http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/K-Means
尤其是本節:您的數據可以構造爲二進制
只是再次查看您的答案,爲什麼代表我的數據有問題?即:爲每個單詞分配一個唯一的數值 –
簡短的答案是因爲你的聚類目標,它會找到那些距離相近的用戶。距離對你如何使用它沒有意義。換句話說,您的原始構造意味着這些特徵是名義上的,但大多數聚類方法(如K均值)隱含地假設數據是按照[比例尺](https://en.wikipedia.org/wiki/Level_of_measurement# Ratio_scale)。 – ramhiser