2016-03-18 40 views
1

我使用主題建模的sklearn實現LDA的。 模型擬合後,我得到了一些有意義的話題,這些話題具有增益權重,所以這很好,但是我還會得到其他話題的所有單詞的權重例如(1 /題目數)。這種行爲聽起來很奇怪,我,有什麼事情它是原因?Scikitlearn潛在狄利克雷分配給空的話題

我的設置信息:

翻譯1000
  • 我傳遞到模型中使用這個詞彙一ffidf矩陣做了700+的文件,每個文件是一個字符
  • 500和1000之間
  • 我試圖運行不同數量的EM迭代,這並不能改變結果
  • 我要求30個主題

我也想知道它是否可能來,我有太多的話題,但如果它確實是這樣的,不應該更改模型中的主題權重呢?

回答

0

我有一個similar issue但對我來說,它是有關的,只(大)文件幾號。在這種情況下,在scikit-learn中實施的在線變分貝葉斯方法在尋找信息性主題(然而,基於Gibbs抽樣的方法起作用)方面存在問題。

我認爲你的情況,問題是你傳遞了一個「ffidf矩陣」(我認爲你的意思是tfidf矩陣)。據我所知,LDA只適用於離散數字,因此您需要通過矩陣(術語頻率aka包文檔術語矩陣 - DTM)。