2011-02-25 38 views
2

我已成功運行mahout lda,並使用命令mahout ldatopics顯示輸出。確定Mahout LDA輸出上的文檔ID

例如我的主題是科學和運動。那麼輸出將是這樣的: 話題0 籃球, 播放, 棒球 話題1個 研究, 研究, 理念現在

我的問題是我怎麼能,識別個人物品的團體或集羣。 是否有ID號或某種跟蹤,以便我添加的每個新文章都將被分組或添加到特定的羣集/主題。

如果我已經有了集羣,下一步是什麼?

感謝

回答

0

我一直在尋找通過源代碼,我不能找到一個矩陣THETA提及任何計算給定的文檔主題的概率,因爲沒有輸入一個Alpha值來估算每個文檔和LDAState類的主題有一個logProbWordGivenTopic(int, int)方法,但沒有像getProbTopicGivenDocument()我只能假設LDA的mahout實現不處理髮現特定文檔的主題分佈。如果別人知道的更好,我很想做錯。

+0

作爲更新檢查出來:https://issues.apache.org/jira/browse/MAHOUT-458?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12896645#action_12896645 它看起來像在更高版本中已被修復 – Kevin 2011-03-03 17:21:35