我有一個句子的集合,我需要分析他們看看他們有多相似。算法來比較英語句子的相似度
是否有任何已建立的算法來做到這一點?
我關心:
-
含有相同的話(忽視拐點現在)
- 含有以類似順序
相同的話
也許在分割空間的句子和上述(或其他)算法之一的某種混合體將是一個起點
什麼選擇?有什麼建議?
謝謝!
我有一個句子的集合,我需要分析他們看看他們有多相似。算法來比較英語句子的相似度
是否有任何已建立的算法來做到這一點?
我關心:
相同的話
也許在分割空間的句子和上述(或其他)算法之一的某種混合體將是一個起點
什麼選擇?有什麼建議?
謝謝!
This paper比較了幾個句子的相似度量。也許你可以按原樣使用其中的一種,或根據需要對其進行修改。
否則句子相似性測量是google的一個很好的關鍵詞。
要忽略語調你應該考慮所產生的算法:http://en.wikipedia.org/wiki/Porter_stemmer
他們減少的話他們的根形式。
hmmmmmmmm *殺死比爾鬍鬚中風*。謝謝! –
@Andrew實際上我只是Google搜索,因爲這個問題引起了我的興趣:)我對這個主題不熟悉......我知道你的問題可能在技術細節中,而這些技術細節在那篇論文中大部分被忽略了(使其拼寫 - 錯誤resitant,拐點等等,英語單詞幾乎沒有變化) – Szabolcs