2011-04-07 76 views
2

我在文檔的語料庫上使用了LDA,並找到了一些主題。我的代碼的輸出是兩個包含概率的矩陣。一個文檔 - 主題概率和另一個詞 - 主題概率。但我實際上不知道如何使用這些結果來預測新文檔的主題。我正在使用Gibbs抽樣。有誰知道如何? 謝謝使用潛在Dirichlet分配進行主題預測

+0

當我發現您已經在此處發佈了問題時,我會建議http://stats.stackexchange.com/。 – NPE 2011-04-07 14:53:21

+0

有你看着http://www.mblondel.org/journal/2010/08/21/latent-dirichlet-allocation-in-python/(有鏈接的要點樣品代碼)和http://博客。 josephwilk.net/projects/latent-semantic-analysis-in-python.html – 2011-04-07 17:06:38

+0

您的描述有點混亂,你寫的,你用LDA來查找文件的主題。至於我記得我的信息檢索講座,LDA是一種先進的平滑技術預測概率中含有的查詢詞,但不存在一個文件中,基於這個詞會按一定的生成概率話題模型。所以如果你能提供一些關於你到目前爲止所做的事情的更多信息將會非常有用。 – 2011-04-11 13:44:59

回答

3

Java實現http://www.arbylon.net/projects/lda-j/lda-j-src-20050325.zip在src \ org \ knowceans \ lda \ SearchEnglet.java中有一個簡短的示例程序。我希望你對Java有點熟悉,代碼可以幫助你。

原文http://jmlr.csail.mit.edu/papers/volume3/blei03a/blei03a.pdf描述了5.1節和5.2節的推理。

+0

對不起,我不能做任何弄明白這些代碼,並在Java中存在使得它更難以 – Hossein 2011-04-13 08:31:46

+0

推理公式LSA是有點複雜,看看關於LSA的英文維基百科頁面。 也許http://nlp.fi.muni.cz/projekty/gensim/#的代碼對您來說可讀性更好。 – rocksportrocker 2011-04-14 08:39:22

相關問題