文字處理，如何使用LDA分配1個主題 - > 1個文檔？

music.txt & science.txt

我希望不要去想從上述（音樂，科學）

提取2個主題從這兩個文件創建LDA模型後（設置num_topics = ）

lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2) 

print(lda.print_topic(0)) 
print(lda.print_topic(1))

這是我的輸出

0.011*scientific + 0.010*musical + 0.007*music, + 0.006*music. + 0.006*study + 0.005*not + 0.005*research + 0.005*main 

0.030*music + 0.013*science + 0.010*scientific + 0.009*musical + 0.006*not + 0.005*music. + 0.005*study + 0.005*music, + 0.005*their + 0.005*research

正如你所看到的，都科學和音樂存在於每個2個主題

我想

使用music.txt並創建1個主題音樂 LDA模型
使用science.txt和創建1個話題科學 LDA模型
結合上述2款LDA給予1個LDA模型與上述兩個議題

是上述一步可能嗎？我想在我的LDA模型中有單獨的主題分離。如果沒有，是否有其他選擇？

來源

2015-04-12 wolfgang5

有兩件事情可以做：

1）如果你的文件確實包含了專門有關音樂或科學文本，很奇怪的是，LDA的主題提供了這樣一個混合的結果。試圖改進模型可能是值得的。您可以考慮放棄停用詞，忽略低頻詞，等等。

2）但是，您真正需要的方法是所謂的，標記爲LDA。使用標記的LDA，您可以在文檔上訓練模型，這些文檔已被標記爲目標主題，而不是讓模型自己推斷出最合適的主題。據我所知，LDA並未在gensim中實現，但您可以在Stanford Topic Modeling Toolkit等地找到它。

來源

2015-04-12 21:52:23 yvespeirsman

文字處理，如何使用LDA分配1個主題 - > 1個文檔？

回答

相關問題