2011-01-23 85 views
1

讓我們想象一下,我們可以建立一個統計表,每個單詞在一些英文文本或書本中使用多少。我們可以收集圖書館中每個文本/書籍的統計數據。 將這些統計數據與對方進行比較的最簡單方法是什麼?我們如何找到統計相似的詞典的文本羣/文本羣?英文文本詞彙比較

回答

1

首先,您需要對詞典進行規格化(即確保兩個詞典都有相同的詞彙表)。

然後,您可以使用類似度量標準,如Hellenger distancecosine similarity來比較兩個詞典。

查看機器學習包如Weka也是一個好主意。

This book是機器學習的優秀資源,您可能會覺得它很有用。

+0

我已經採取了通過這本書簡單的介紹一下,但我沒有找到它側重於詞彙的算法。我錯了嗎? – 2012-05-18 19:15:23