2017-02-13 161 views
0

我想將社交媒體帖子(短文本)與電影/電視節目的數據庫進行匹配。該數據庫包含電影或電視節目名稱,角色和演員的信息。如果在輸入文本中找到了足夠的證據,那麼我希望該算法將文本分類爲它所屬的電影,或者如果沒有足夠的證據,則不做任何事情。無機器學習的文本分類

我熟悉機器學習方法,但那些需要訓練樣本和有限數量的類別。我的算法應該能夠使用上下文,並且可以擴展新內容。例如,我不希望機器學會識別「哈利波特」電影,但當它被髮布時,卻無法識別「神奇的野獸以及在哪裏可以找到它們」。

我知道解決方案是部分字符串匹配,但我想指出正確的方向來處理這些問題的一些通用指南。我也對識別拼寫錯誤的單詞感興趣,並將更多的權重分配給某些匹配項,而對其他匹配項更少。

另外,作爲一個方面說明,應該通過SQLite或在外面進行字符串匹配嗎?我對這個案子的猜測是在外面,但我只想確定一下。

非常感謝您的幫助!

+0

你也許可以使用IBM AlchemyLanguage API高效的模糊邏輯的實現。它可以採取文字和突破概念。例如,「羅伯特德尼羅」,熱火,阿爾帕西諾和邁克爾曼,「熱火羅伯特德尼羅」。 4個關鍵組件來識別電影,並鏈接到它從中拉出的數據庫。 – Chris

+0

謝謝你的建議,我從來沒有想過我會與沃森合作。我馬上檢查一下。 – humma4

回答

0

你在找什麼是基於模糊規則的信息檢索系統。這將需要一些手工制定的規則和模糊匹配(通常使用Lucene)來匹配針對實體/文檔的知識庫的查詢。

一個示例,請參見本文:

基於信息檢索系統 https://arxiv.org/pdf/1503.03957.pdf