我在文檔的語料庫上使用了LDA,並找到了一些主題。我的代碼的輸出是兩個包含概率的矩陣。一個文檔 - 主題概率和另一個詞 - 主題概率。但我實際上不知道如何使用這些結果來預測新文檔的主題。我正在使用Gibbs抽樣。有誰知道如何? 謝謝使用潛在Dirichlet分配進行主題預測
回答
Java實現http://www.arbylon.net/projects/lda-j/lda-j-src-20050325.zip在src \ org \ knowceans \ lda \ SearchEnglet.java中有一個簡短的示例程序。我希望你對Java有點熟悉,代碼可以幫助你。
原文http://jmlr.csail.mit.edu/papers/volume3/blei03a/blei03a.pdf描述了5.1節和5.2節的推理。
對不起,我不能做任何弄明白這些代碼,並在Java中存在使得它更難以 – Hossein 2011-04-13 08:31:46
推理公式LSA是有點複雜,看看關於LSA的英文維基百科頁面。 也許http://nlp.fi.muni.cz/projekty/gensim/#的代碼對您來說可讀性更好。 – rocksportrocker 2011-04-14 08:39:22
- 1. gensim潛在Dirichlet分配minimum_probability與print_topics
- 2. 潛在Dirichlet分配(LDA)實現
- 3. 潛在Dirichlet分配(LDA)的文檔數
- 4. 主題建模 - 將具有前2個主題的文檔分配爲類別標籤 - sklearn潛在Dirichlet分配
- 5. 用於文檔分類的監督潛在Dirichlet分配?
- 6. python - sklearn潛在Dirichlet分配變換與Fittransform
- 7. 非GPL開源潛在Dirichlet分配實現/ C/C++中的庫
- 8. 潛在Dirichlet分配解決方案示例
- 9. 如何確定用於文本聚類的LDA(潛在Dirichlet分配)算法中的主題數量?
- 10. 對於稀疏數據,訓練LDA(潛在Dirichlet分配)並預測新文檔的更快方法是什麼?
- 11. 配置Ghost使用上傳的主題進行Markdown預覽
- 12. 使用LSTM進行預測
- 13. 用LDA預測主題
- 14. LDA/LSI在Gensim中使用預定義主題列表進行主題建模
- 15. 在Tensorflow中使用InceptionV3進行預測
- 16. 如何在預測時使用主成分分析?
- 17. 使用潛在語義分析進行聚類
- 18. 使用Dapper在MySQL主/從上進行讀寫分配
- 19. 如何使用部分匹配方法預測進行編碼和解碼?
- 20. Weka分類;跨預定義主題進行交叉驗證
- 21. 使用text2vec包進行文本預處理和主題建模
- 22. 在PyMC中的Dirichlet分佈
- 23. ARIMA使用auto.Arima()和xreg進行預測
- 24. 使用WordNet進行單詞預測
- 25. 使用SVM迴歸進行預測?
- 26. rnn使用word2vec進行單詞預測
- 27. 使用NLP/ML/word2vec/tensorflow進行預測
- 28. Weka使用Java進行預測
- 29. 使用ns()進行樣條預測
- 30. 使用tsDyn進行預測 - 錯誤R
當我發現您已經在此處發佈了問題時,我會建議http://stats.stackexchange.com/。 – NPE 2011-04-07 14:53:21
有你看着http://www.mblondel.org/journal/2010/08/21/latent-dirichlet-allocation-in-python/(有鏈接的要點樣品代碼)和http://博客。 josephwilk.net/projects/latent-semantic-analysis-in-python.html – 2011-04-07 17:06:38
您的描述有點混亂,你寫的,你用LDA來查找文件的主題。至於我記得我的信息檢索講座,LDA是一種先進的平滑技術預測概率中含有的查詢詞,但不存在一個文件中,基於這個詞會按一定的生成概率話題模型。所以如果你能提供一些關於你到目前爲止所做的事情的更多信息將會非常有用。 – 2011-04-11 13:44:59