爲了便於說明,我們假設這是一個論壇服務。我需要計算每個用戶的信息之間的「相似性」,這樣的結果會是這樣的:測量文檔集之間的相似度
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
我處理多字節字符串,所以我想我堅持在這裏搜索引擎。我們已經使用Solr,已經有更多的實現,但我不太確定如何構建查詢。任何幫助感謝!
爲了便於說明,我們假設這是一個論壇服務。我需要計算每個用戶的信息之間的「相似性」,這樣的結果會是這樣的:測量文檔集之間的相似度
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
我處理多字節字符串,所以我想我堅持在這裏搜索引擎。我們已經使用Solr,已經有更多的實現,但我不太確定如何構建查詢。任何幫助感謝!
有兩種奇怪的問題:1.你爲什麼要對付SOLR? 2.這種相似性取決於目標問題。你的問題聽起來對我來說太普通。在語義相似性方面正在進行研究。有編輯距離算法,這可能是或許是不是你想要的。
因此,更準確地定義你的問題,你會得到更好的答案。
有相似的幾個措施,一個簡單而有效的一個是餘弦相似性。 還有更復雜的,如史密斯 - 沃特曼等,
您需要定義什麼你認爲「相似」,並要如何建模。 Levenshtein距離?馬爾可夫鏈? – 2011-05-20 09:34:59
其實我並不在意,因爲我願意讓Solr的更多像這樣的功能爲我決定。但是,除了標準「讓我獲得更多像這樣的文章,基於你做的相似性評分」之外,我在這裏要做的是「讓我在這些文章中獲得相似性分數」。 – jodeci 2011-05-23 01:51:03