NLP /機器學習文本比較

我目前正在開發一個程序，能夠比較一個小文本（比如250個字符）和一組相似文本（大約1000-2000個文本）。NLP /機器學習文本比較

目的是評估文本A是否與集合中的一個或多個文本相似，如果是這樣，集合中的文本必須可以通過ID檢索。每個文本都會有一個唯一的ID。

有兩種方式我想輸出是：

選項1： 文本的匹配用90％的相似性文本B，文本C，用70％的相似性，等等。

選項2：具有最高相似度文字匹配的文字d

我已閱讀在學校的一些機器學習，但我不知道該算法適合這一問題的最佳或者，我應該考慮使用NLP （不熟悉這個主題）。

有沒有人有什麼算法使用或在哪裏可以找到nessecary文學來解決我的問題的建議？

感謝您的貢獻！

2013-08-26 RobertH

我發現了一篇非常適合我的問題的語義相似度測量的文章。

感謝所有的輸入！

2013-08-26 12:32:32 RobertH

我在ML方面相當新，希望能夠使用雲ML服務Google，Azire，Watson。我還需要解決文本比較，你實現了什麼？ – jasan

它似乎不是一個機器學習問題，你只是尋找一些文本相似性度量。一旦你選擇了一個，你只需根據實現的「分數」對數據進行排序。

根據您的文章，您可以使用下列指標之一（list from the wiki），或定義自己：

一些上述的（像即。餘弦相似性）需要將數據轉換爲矢量化格式。這個過程也可以通過許多方式實現，最簡單的可能是單詞/ tfidf技術。

列表本身並不完整，只是這樣的方法的草稿。特別是，有很多字符串內核，它們也適用於測量文本相似性。特別是Wordnet Kernel可以基於英語語言中最完整的語義數據庫來測量語義相似度。

2013-08-26 08:45:24 lejlot

你能給我鏈接到維基？感謝輸入 – RobertH

添加到文字鏈接 – lejlot

想了解downvote的原因，請問我可否置評？ – lejlot

回答