我也一邊做文本聚類在亨利馬烏0.9與集羣轉儲一個問題 -ClusterDump在亨利馬烏0.9
https://mahout.apache.org/users/clustering/clusteringyourdata.html
一個簇轉儲的情況下,輸出前k kerms和要不要t指定參數p(pointsDir)。
集羣轉儲的第二種情況是您指定參數p(pointsDir)的位置,您可以獲得與集羣關聯的點。
這兩個輸出都具有相同的確切羣集標識,但情況1中顯示的記錄數量 - 顯示的頂級條款與條件2中出現的記錄數量不同 - 您獲得與羣集關聯的點數。
爲什麼會發生這種情況?我的意思是它的bizzare看到與特定羣集相關的不同點數,並不確定哪一個是正確的?
有沒有人看到過這種情況?
預先感謝您!