2013-02-13 27 views
0

我想知道如何在java中使用canopy集羣來集羣這個輸入?簡單的java程序根據它們的值做canopy集羣字符串

 1 access 375 
     1 addition 375 
     1 advance 375 
     1 answered 375 
     1 applied 375 
     1 approximate 375 
     1 evil 375 

     1 hiway 375 
     1 home 375 
     1 hope 375 
     1 hotmail 375 
     3 town 375 
     4 forum 375 
     4 good 375 
     4 reig 375 
     5 plot 375 

其中第一列是單詞的頻率。第二列是單詞,第三列是單詞的總數。

如何做冠層排序?並想知道什麼是threashold值?

+0

我不知道樹冠分類。你能解釋一下輸出應該是什麼嗎? – sp00m 2013-02-13 14:23:34

+0

http://en.wikipedia.org/wiki/Canopy_clustering_algorithm和https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering – 2013-02-13 14:25:40

+0

因此,任何人都不知道如何對這些數據進行冠層聚類? – Ameer 2013-02-13 14:41:19

回答

1

冠層聚類被施加到矢量完整文本,不單個單詞

你認爲集羣是什麼?除非你清楚你的期望一個集羣是什麼樣子,否則你永遠不會找出正確的算法。

那麼你希望像一個集羣:

1 access 375 
    1 addition 375 
    1 advance 375 
    1 answered 375 
    1 applied 375 
    1 approximate 375 

(稀有字開頭的)?這對你有用嗎?

聚類算法不是神奇的工具。您需要仔細選擇並配置它們以產生您感興趣的結果。

+0

你能否給我一個例子,說明冠層聚類的輸入向量是怎樣的? [hello,helloworld,40,goodnight] [hellosir,helloworld,42,goodmorning] [hellohi,helloworld,44,goodevening] – Ameer 2013-02-14 11:58:42

+0

嘗試使用TF-IDF向量。請注意,它不會聚集單詞,而是文檔。 – 2013-02-14 12:12:28