2015-04-04 26 views
0

我有5個主題的10000條推文。假設我知道基礎事實(每條推文的實際主題),並將推文分爲5個文檔,其中每個文檔包含特定主題的推文。然後,我將LDA應用於主題數量設置爲5的5個文檔。在這種情況下,我獲得了很好的主題詞。如何應用主題建模?

現在,如果我不知道推文的基本事實,我該如何製作輸入文檔,LDA仍然會給我描述5個主題的好主題詞。

如果我通過隨機選擇推文樣本創建輸入文檔,該怎麼辦?如果這最終導致輸入文檔的類似主題混合? LDA是否應該像第一段那樣找到好話題?

回答

2

如果我理解正確,您的問題是關於短文本(推文)上的話題建模。一種方法是在訓練LDA之前將推文結合成長僞文檔。另一個是假定每個文檔/ Tweet只有一個主題。

如果您不知道推文的地面實況標籤,則可能需要嘗試單篇文檔主題模型(即unigrams的混合)。該模型的細節描述如下:

尹建華王建勇。基於Dirichlet多項混合模型的短文本聚類方法。在Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,第233-242頁。

你可以找到我的這個模型和LDA的Java實現http://jldadmm.sourceforge.net/假設你知道地面實況標籤,你也可以使用我的實現來比較文檔集羣任務中的這些主題模型。

如果您想評估主題的一致性(即評估主題詞的好用程度),我建議您查看實現主題一致性計算的Palmetto工具包(https://github.com/AKSW/Palmetto)。