我已閱讀LDA,並瞭解在輸入文檔集合時如何生成主題的數學。LDA主題建模 - 培訓和測試
參考文獻說,LDA是一種算法,只要給出一個文檔集合(不需要監督),就可以發現該集合中的文檔所表達的「主題」。因此,通過使用LDA算法和吉布斯採樣器(或變分貝葉斯),我可以輸入一組文檔和輸出,我可以得到主題。每個主題都是一組具有分配概率的術語。
我不明白的是,如果上述說法屬實,那麼爲什麼很多主題建模教程都會談論將數據集分爲訓練集和測試集?
任何人都可以向我解釋LDA如何用於訓練模型的步驟(基本概念),然後可以使用它來分析另一個測試數據集?
一個很好的問題! – KillBill