英文文本詞彙比較

讓我們想象一下，我們可以建立一個統計表，每個單詞在一些英文文本或書本中使用多少。我們可以收集圖書館中每個文本/書籍的統計數據。將這些統計數據與對方進行比較的最簡單方法是什麼？我們如何找到統計相似的詞典的文本羣/文本羣？英文文本詞彙比較

首先，您需要對詞典進行規格化（即確保兩個詞典都有相同的詞彙表）。

然後，您可以使用類似度量標準，如Hellenger distance或cosine similarity來比較兩個詞典。

查看機器學習包如Weka也是一個好主意。

This book是機器學習的優秀資源，您可能會覺得它很有用。

2011-01-23 01:18:38 Davidann

我已經採取了通過這本書簡單的介紹一下，但我沒有找到它側重於詞彙的算法。我錯了嗎？ – 2012-05-18 19:15:23

我會先看看Lucene（http://lucene.apache.org/java/docs/index.html）必須提供什麼。之後，您將需要使用機器學習方法並查看http://en.wikipedia.org/wiki/Information_retrieval。

2011-01-23 01:10:03

您可能會考慮Kullback Leibler距離。僅供參考，請參見封面和托馬斯的18頁：

2011-01-23 09:44:35 Predictor

回答