無機器學習的文本分類

我想將社交媒體帖子（短文本）與電影/電視節目的數據庫進行匹配。該數據庫包含電影或電視節目名稱，角色和演員的信息。如果在輸入文本中找到了足夠的證據，那麼我希望該算法將文本分類爲它所屬的電影，或者如果沒有足夠的證據，則不做任何事情。無機器學習的文本分類

我熟悉機器學習方法，但那些需要訓練樣本和有限數量的類別。我的算法應該能夠使用上下文，並且可以擴展新內容。例如，我不希望機器學會識別「哈利波特」電影，但當它被髮布時，卻無法識別「神奇的野獸以及在哪裏可以找到它們」。

我知道解決方案是部分字符串匹配，但我想指出正確的方向來處理這些問題的一些通用指南。我也對識別拼寫錯誤的單詞感興趣，並將更多的權重分配給某些匹配項，而對其他匹配項更少。

另外，作爲一個方面說明，應該通過SQLite或在外面進行字符串匹配嗎？我對這個案子的猜測是在外面，但我只想確定一下。

非常感謝您的幫助！

2017-02-13 humma4

你也許可以使用IBM AlchemyLanguage API高效的模糊邏輯的實現。它可以採取文字和突破概念。例如，「羅伯特德尼羅」，熱火，阿爾帕西諾和邁克爾曼，「熱火羅伯特德尼羅」。 4個關鍵組件來識別電影，並鏈接到它從中拉出的數據庫。 – Chris

謝謝你的建議，我從來沒有想過我會與沃森合作。我馬上檢查一下。 – humma4

你在找什麼是基於模糊規則的信息檢索系統。這將需要一些手工制定的規則和模糊匹配（通常使用Lucene）來匹配針對實體/文檔的知識庫的查詢。

一個示例，請參見本文：

2017-07-20 13:42:49 fjxx

回答