2013-02-20 27 views
2

使用apache mahout創建doc向量和集羣相當容易。執行羣集轉儲允許用戶查看與各個羣集相關的術語。但是,如何識別屬於每個羣集的文檔?識別與mahout集羣相關的文檔

感謝

回答

0

我想,每一個文件,找到它的歐氏距離與各個聚類中心向量,並將其分配給最近的聚類。

+0

顯然取決於聚類算法。平方歐幾里得僅適用於純k-均值。 – 2013-02-20 19:24:22

+0

謝謝,但mahout API是否提供了任何方法/方法來完成此任務(查找與羣集關聯的文檔)?我剛剛在這篇博文中遇到了這個片斷,我應該嘗試http://bickson.blogspot.com/2011/09/understanding。這將打印每個文檔及其相應的羣集。代碼片段https://gist.github.com/anonymous/4998621 – 2013-02-20 19:35:06

+0

這是一個相當簡單的方法來實現,特別是不知道Mahout。 – 2013-02-20 20:09:34