2
我已經開始使用Galago進行文檔檢索。我想使用LDA將一些文檔(最初用任何模型檢索的文檔)聚類。我更喜歡使用基於Java的實現,可以使用Galago將其集成到我的代碼中。如果您能讓我知道LDA的開源實現更適合我的用途,我將不勝感激。在Galago搜索引擎中使用LDA
非常感謝您的幫助!
我已經開始使用Galago進行文檔檢索。我想使用LDA將一些文檔(最初用任何模型檢索的文檔)聚類。我更喜歡使用基於Java的實現,可以使用Galago將其集成到我的代碼中。如果您能讓我知道LDA的開源實現更適合我的用途,我將不勝感激。在Galago搜索引擎中使用LDA
非常感謝您的幫助!
有從本文提出了一種快速算法LDA:
S.阿羅拉,R.戈,Y.哈珀恩,D. Mimno,A. Moitra,D.桑塔格,Y.吳,M.朱。一種實用的帶可證保證的主題建模算法。第30屆國際會議上的機器學習(ICML),2013年
已經由GitHub上這裏的作者(D. Mimno)的一個Java實現:https://github.com/mimno/anchor
我這個實現戳左右簡要地說,發現了好的和快速的結果。像所有LDA/Topic建模一樣,獲取正確的主題數量可能具有挑戰性。
嗨,John,謝謝你的幫助。我只有一個問題:在--topics-file指定的train-anchor的輸出文件中,是概率p(topic | word)* p(word)?我有這個問題,因爲該手冊說p(主題詞),但在代碼中,我發現wordProb *權重[主題];再次感謝! – Magen