2015-01-06 46 views
0

我想使這樣的軟件,使2文本文件智能有點像檢查多少文本匹配,不喜歡DIFF 我搜索了一個相當谷歌,我發現2件事是圖& TFIDF。最好的方法來匹配2個文本文件

但我兩者之間的困惑,我不知道哪一個更好&也沒有任何其他技術相匹配的文本文檔

回答

0

你看餘弦距離測量文檔相似性? 餘弦相似度是測量內積空間的兩個向量之間的相似度的度量,它測量它們之間角度的餘弦http://en.wikipedia.org/wiki/Cosine_similarity

如果您有文檔A和B,則可以爲文檔A和B創建兩個詞向量術語矢量A將包含文件A的單詞和文件的每個單詞頻率。而不是原始的詞頻,你可以TF-IDF加權。一旦你有術語向量A和B,就可以計算術語向量A和B的餘弦相似度,代表文檔A和B. 在創建術語向量之前,您需要執行一些預處理任務,如過濾停用詞。

+0

優秀的答案。但我們可以使用AI嗎? –

+0

你的意思是測量語義相似度嗎?即基於意義或語義內容的兩個文檔的相似性?您可以使用本體來測量語義相似度,以定義文檔內部的術語/概念之間的距離。 – Kasun

+0

嗯,這有幫助。謝謝 –