算法來比較英語句子的相似度

我有一個句子的集合，我需要分析他們看看他們有多相似。算法來比較英語句子的相似度

是否有任何已建立的算法來做到這一點？

我關心：

相同的話

我用Levenshtein距離和正克之前拼寫，雖然我不完全有信心，如果這些轉化爲我的目的。天真地說，「我不關心拼寫差異，錯別字可以被當作不同的單詞」，雖然也許很好解釋這一點。

也許在分割空間的句子和上述（或其他）算法之一的某種混合體將是一個起點

什麼選擇？有什麼建議？

謝謝！

This paper比較了幾個句子的相似度量。也許你可以按原樣使用其中的一種，或根據需要對其進行修改。

否則句子相似性測量是google的一個很好的關鍵詞。

2011-07-15 09:45:40 Szabolcs

hmmmmmmmm *殺死比爾鬍鬚中風*。謝謝！ –

@Andrew實際上我只是Google搜索，因爲這個問題引起了我的興趣:)我對這個主題不熟悉......我知道你的問題可能在技術細節中，而這些技術細節在那篇論文中大部分被忽略了（使其拼寫 - 錯誤resitant，拐點等等，英語單詞幾乎沒有變化） – Szabolcs

要忽略語調你應該考慮所產生的算法：http://en.wikipedia.org/wiki/Porter_stemmer

他們減少的話他們的根形式。

2013-04-27 09:07:43 Matt

回答