我想將社交媒體帖子(短文本)與電影/電視節目的數據庫進行匹配。該數據庫包含電影或電視節目名稱,角色和演員的信息。如果在輸入文本中找到了足夠的證據,那麼我希望該算法將文本分類爲它所屬的電影,或者如果沒有足夠的證據,則不做任何事情。無機器學習的文本分類
我熟悉機器學習方法,但那些需要訓練樣本和有限數量的類別。我的算法應該能夠使用上下文,並且可以擴展新內容。例如,我不希望機器學會識別「哈利波特」電影,但當它被髮布時,卻無法識別「神奇的野獸以及在哪裏可以找到它們」。
我知道解決方案是部分字符串匹配,但我想指出正確的方向來處理這些問題的一些通用指南。我也對識別拼寫錯誤的單詞感興趣,並將更多的權重分配給某些匹配項,而對其他匹配項更少。
另外,作爲一個方面說明,應該通過SQLite或在外面進行字符串匹配嗎?我對這個案子的猜測是在外面,但我只想確定一下。
非常感謝您的幫助!
你也許可以使用IBM AlchemyLanguage API高效的模糊邏輯的實現。它可以採取文字和突破概念。例如,「羅伯特德尼羅」,熱火,阿爾帕西諾和邁克爾曼,「熱火羅伯特德尼羅」。 4個關鍵組件來識別電影,並鏈接到它從中拉出的數據庫。 – Chris
謝謝你的建議,我從來沒有想過我會與沃森合作。我馬上檢查一下。 – humma4