2011-07-15 39 views
11

我有一個句子的集合,我需要分析他們看看他們有多相似。算法來比較英語句子的相似度

是否有任何已建立的算法來做到這一點?

我關心:

    含有相同的話(忽視拐點現在)
  • 含有以類似順序

相同的話

  • 我用Levenshtein距離和正克之前拼寫,雖然我不完全有信心,如果這些轉化爲我的目的。天真地說,「我不關心拼寫差異,錯別字可以被當作不同的單詞」,雖然也許很好解釋這一點。

    也許在分割空間的句子和上述(或其他)算法之一的某種混合體將是一個起點

    什麼選擇?有什麼建議?

    謝謝!

  • 回答

    13

    This paper比較了幾個句子的相似度量。也許你可以按原樣使用其中的一種,或根據需要對其進行修改。

    否則句子相似性測量是google的一個很好的關鍵詞。

    +1

    hmmmmmmmm *殺死比爾鬍鬚中風*。謝謝! –

    +0

    @Andrew實際上我只是Google搜索,因爲這個問題引起了我的興趣:)我對這個主題不熟悉......我知道你的問題可能在技術細節中,而這些技術細節在那篇論文中大部分被忽略了(使其拼寫 - 錯誤resitant,拐點等等,英語單詞幾乎沒有變化) – Szabolcs