我正在使用非負矩陣分解(NMF)主題模型爲客戶反饋構建主題模型。如何在Python中重新訓練機器學習模型,直至獲得理想的結果
它創建話題羣集如下:
[(0, [u'reserved block', u'reserved block available', u'reserved block week', u'need reserved block']), (1, [u'hour block', u'package hour block', u'bring hour block', u'bring hour']), (2, [u'hard block', u'driver hard block', u'driver hard', u'gps horrible']), (3, [u'delivery block', u'hard delivery block', u'hard delivery', u'delivery block available']), (4, [u'block available', u'reserved block available', u'make block', u'make block available'])
但是,話題0 & 4和話題2 & 3幾乎相同。我想知道如何重新訓練模型,以便它能夠以主題0 & 4;主題2 & 3作爲一個主題在兩個關鍵字的聯合(&設置他們的基礎上,他們的順序&權重也應該給予更多的權重)。
我希望用戶應該能夠手動執行此操作。我的意思是,他們認爲哪些主題集羣是無關緊要或重複的,他們應該能夠告訴機器排除這些,機器會逐漸瞭解這些主題集羣無關或重複。這可能嗎? – akrama81
@ akrama81我不這麼認爲,僅僅是因爲話題建模的本質。它根據矩陣分解或基於單詞出現的概率來估計主題,嘗試在給定若干主題的情況下適合最佳模型。如果你「合併」主題,這意味着你正在嘗試創建一個描述該主題的詞的聯合,並且由於分配或分解不會'總計爲1',這將會使整個模型搞砸。 –
@ akrama81我可以想出的唯一方法是嘗試切換到LDA並根據用戶決定手動指定特定主題中單詞的頻率分佈,但這需要一些研究 –