1

我有2個文件,文字處理,如何使用LDA分配1個主題 - > 1個文檔?

music.txt & science.txt

我希望不要去想從上述(音樂科學

提取2個主題從這兩個文件創建LDA模型後(設置num_topics = )

lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2) 

print(lda.print_topic(0)) 
print(lda.print_topic(1)) 

這是我的輸出

0.011*scientific + 0.010*musical + 0.007*music, + 0.006*music. + 0.006*study + 0.005*not + 0.005*research + 0.005*main 

0.030*music + 0.013*science + 0.010*scientific + 0.009*musical + 0.006*not + 0.005*music. + 0.005*study + 0.005*music, + 0.005*their + 0.005*research 

正如你所看到的,科學和音樂存在於每個2個主題

我想

  1. 使用music.txt並創建1個主題音樂 LDA模型
  2. 使用science.txt和創建1個話題科學 LDA模型
  3. 結合上述2款LDA給予1個LDA模型與上述兩個議題

是上述一步可能嗎?我想在我的LDA模型中有單獨的主題分離。如果沒有,是否有其他選擇?

回答

1

有兩件事情可以做:

1)如果你的文件確實包含了專門有關音樂或科學文本,很奇怪的是,LDA的主題提供了這樣一個混合的結果。試圖改進模型可能是值得的。您可以考慮放棄停用詞,忽略低頻詞,等等。

2)但是,您真正需要的方法是所謂的,標記爲LDA。使用標記的LDA,您可以在文檔上訓練模型,這些文檔已被標記爲目標主題,而不是讓模型自己推斷出最合適的主題。據我所知,LDA並未在gensim中實現,但您可以在Stanford Topic Modeling Toolkit等地找到它。

相關問題