我目前正在開發一個程序,能夠比較一個小文本(比如250個字符)和一組相似文本(大約1000-2000個文本)。NLP /機器學習文本比較
目的是評估文本A是否與集合中的一個或多個文本相似,如果是這樣,集合中的文本必須可以通過ID檢索。每個文本都會有一個唯一的ID。
有兩種方式我想輸出是:
選項1: 文本的匹配用90%的相似性文本B,文本C,用70%的相似性,等等。
選項2:具有最高相似度 文字匹配的文字d
我已閱讀在學校的一些機器學習,但我不知道該算法適合這一問題的最佳或者,我應該考慮使用NLP (不熟悉這個主題)。
有沒有人有什麼算法使用或在哪裏可以找到nessecary文學來解決我的問題的建議?
感謝您的貢獻!
我在ML方面相當新,希望能夠使用雲ML服務Google,Azire,Watson。我還需要解決文本比較,你實現了什麼? – jasan