如何應用主題建模？

我有5個主題的10000條推文。假設我知道基礎事實（每條推文的實際主題），並將推文分爲5個文檔，其中每個文檔包含特定主題的推文。然後，我將LDA應用於主題數量設置爲5的5個文檔。在這種情況下，我獲得了很好的主題詞。如何應用主題建模？

現在，如果我不知道推文的基本事實，我該如何製作輸入文檔，LDA仍然會給我描述5個主題的好主題詞。

如果我通過隨機選擇推文樣本創建輸入文檔，該怎麼辦？如果這最終導致輸入文檔的類似主題混合？ LDA是否應該像第一段那樣找到好話題？

2015-04-04 KillBill

如果我理解正確，您的問題是關於短文本（推文）上的話題建模。一種方法是在訓練LDA之前將推文結合成長僞文檔。另一個是假定每個文檔/ Tweet只有一個主題。

如果您不知道推文的地面實況標籤，則可能需要嘗試單篇文檔主題模型（即unigrams的混合）。該模型的細節描述如下：

尹建華王建勇。基於Dirichlet多項混合模型的短文本聚類方法。在Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，第233-242頁。

你可以找到我的這個模型和LDA的Java實現http://jldadmm.sourceforge.net/假設你知道地面實況標籤，你也可以使用我的實現來比較文檔集羣任務中的這些主題模型。

如果您想評估主題的一致性（即評估主題詞的好用程度），我建議您查看實現主題一致性計算的Palmetto工具包（https://github.com/AKSW/Palmetto）。

2015-07-10 15:24:07 NQD

回答