2012-07-25 20 views
0

我一直使用Mahout來使用XML和SOLR索引輸入的k-means集羣文本文檔。Mahout ClusterDump - 顯示graphml輸出時的奇數結果

聚類看起來很有效,類似的文件確實被放在同一個k-means聚類中,這很好。但是,無論何時使用ClusterDump顯示graphml輸出(--outputFormat GRAPH_ML),我都會得到一個顯示所有集羣的圖,但每個元素顯示在其父集羣周圍,這意味着每個元素都具有大致相同的半徑從質心。

我期待元素散佈在整個集羣中,這取決於它們彼此之間的相似性(如Mahout示例)。

有沒有人見過與他們的Mahout k-means集羣類似的東西?我試圖深入瞭解這一點,但任何暗示或建議都將是一個巨大的幫助。

有了太多的感謝,

P莫里斯

回答

0

請你能解釋一下你如何成功羣集Solr的索引輸入與象夫和k均值算法中?

BTW我的輸出(clusters_dump)當我clusterize .txt文件看起來像:

CL-0 {n = 0時C = [0:1.000,1:1.000,2:3.162,3:1.000 ,4:4.796,6:1.000,7:1.000,8:1.000,9:1.000,10:1.000,11:1.000,12:4.690,14:1.000,15:11.446,16:4.359] r = []}

CL-1 {n = 0時C = [0:1.000,1:1.000,2:3.162,3:1.000,6:1.000,7:1.000,8:1.000,9:1.000,10:1.000, 11:1.000,14:1.000,15:11.446] r = []}

CL-2 {n = 0 c = [4:1.000,12:1.000,13:8.315,16:1.000] r = ]}

因爲我指定了簇的個數3.