我已經運行從亨利馬烏教程合成控制數據K-均值聚類算法,並想知道如果有人可以解釋如何解釋輸出。我跑clusterdump和接收到的輸出,看起來像這樣(截斷爲節省空間):如何閱讀Mahout的集羣輸出
CL-592{n=57 c=30.726, 29.813...] r=[3.528, 3.597...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.453962995925863]: [24.672, 35.261, 30.486...]
1.0 : [distance=27.675053294846002]: [25.592, 29.951, 34.188...]
1.0 : [distance=28.97727289419493]: [30.696, 32.667, 34.223...]
1.0 : [distance=21.999685652862784]: [32.702, 35.219, 30.143...]
...
CL-598{n=50 c=[29.611, 29.769...] r=[3.166, 3.561...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.266203490250472]: [27.679, 33.506, 23.594...]
1.0 : [distance=28.749781351838173]: [34.727, 28.325, 30.331...]
1.0 : [distance=32.635136046420186]: [27.758, 33.859, 29.879...]
1.0 : [distance=29.328974057024624]: [29.356, 26.793, 25.575...]
有人能向我解釋如何閱讀呢?據我所知,CL -__是一個簇ID,後面跟着n =簇中的點數,c =質心作爲向量,r =半徑作爲向量,然後是簇中的每個點。它是否正確?此外,我怎麼知道哪個聚集點與哪個輸入點匹配?即被描述爲鍵值對的點,其中鍵是該點的某種ID並且該值是矢量?如果沒有,我可以設置它,所以它是?
對不起,因爲這樣碰撞,但你是如何得到聚集點?我可以得到聚類質心,但不知何故,我無法得到點與你分配的聚類之間的關係? – Marko 2014-08-28 08:55:15