2014-01-08 58 views
15

我已經運行了https://github.com/percyliang/brown-cluster以及python實現https://github.com/mheilman/tan-clustering的棕色聚類算法。他們都給每種獨特的令牌提供某種二進制和另一個整數。例如:布朗聚類算法輸出意味着什麼?

0  the  6 
10  chased  3 
110  dog  2 
1110  mouse  2 
1111  cat  2 

二進制和整數是什麼意思?

從第一link,二進制稱爲一個bit-string,看到http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/

但我怎麼從輸出告訴dog and mouse and cat是一個集羣,the and chased是不一樣的集羣中?

+1

,它說,每一行是:<簇表示爲一個位串><在輸入中出現單詞的次數> !! – carla

+1

它甚至意味着什麼?簇表示爲位串? – alvas

+0

你可以提供一些關於你想要分類的細節嗎?在這種情況下,我可以嘗試尋找一些參考。否則,可能沒有任何一般程序,我想這更多是關於專家知識和/或預定義的措施。 –

回答

15

如果我理解正確的話,該算法給你一棵樹,你需要在一定程度上截斷它得到集羣。在這些位串的情況下,您應該先取第一個L個字符。

例如,在第二字符切給你兩個集羣

10   chased  

11   dog   
11   mouse  
11   cat   

在第三個字符,你得到

110   dog   

111   mouse  
111   cat   

切割策略是不同的主題雖然。

+0

您有關於「切割」策略的任何鏈接/教程嗎? – alvas

+0

有時候你有一些專家知識,只有'K'羣集,並且只要你得到它們就切割。否則,你可以定義一些度量,[wikipedia文章](http://en.wikipedia.org/wiki/Hierarchical_clustering)是一個很好的開始。 –

0

我的猜測是:

根據圖2 Brown et al 1992,聚類是分層的,並從根本上得到你必須做出一個向上/向下決定每個字的「葉子」。如果up爲0,down爲1,則可以將每個單詞表示爲一個位串。

https://github.com/mheilman/tan-clustering/blob/master/class_lm_cluster.py

# the 0/1 bit to add when walking up the hierarchy 
# from a word to the top-level cluster 
+0

是的但那不給我集羣,它只會給我相似的權利? – alvas

+0

該單詞所包含的集合集合與位串前綴集合相同。因此,字符串爲1110的字包含在簇1,11和111中。 – cyborg

1

整數是單詞在文檔中看到的次數。 (我在Python實現測試此。)

從在Python實現的頂部的意見:

代替使用窗口(例如,如在Brown等人,仲4。 ),這個 代碼使用兩個隨機選擇的來自同一文檔的 羣集將是c1和c2的概率計算PMI。另外,由於 羣集令牌和對的總數是不同的,所以此代碼使用計數而不是概率。

從python實現中的代碼中,我們看到它輸出單詞,位串和單詞計數。

def save_clusters(self, output_path): 
    with open(output_path, 'w') as f: 
     for w in self.words: 
      f.write("{}\t{}\t{}\n".format(w, self.get_bitstring(w), 
              self.word_counts[w])) 
4

在珀西梁的實現(https://github.com/percyliang/brown-cluster)時,-C參數允許您指定詞簇的數量。輸出包含語料庫中的所有單詞,以及用以下格式註釋羣集和單詞頻率的位串:<bit string> <word> <word frequency>。輸出中不同位串的數量等於所需簇的數量,並且具有相同位串的單詞屬於同一簇。

4

更改運行:./wcluster --text input.txt中--c 3

--c數

這個數字意味着集羣的數量,默認值是50。你可以用」由於缺省輸入只有三個句子,所以不能區分不同的詞組羣。將50個羣集更改爲3個羣集,您可以分辨差異。

我輸入以下三個鳴叫到輸入和得到3作爲簇參數

enter image description here

在你呈現第一鏈路