2014-01-14 39 views
3

我正在使用LDA算法將許多文檔聚類到不同的主題中。 LDA算法需要一個輸入參數:主題的數量。我怎麼能確定這一點?如何確定用於文本聚類的LDA(潛在Dirichlet分配)算法中的主題數量?

我使用Reuter語料庫來對我的解決方案進行基準測試。並且Reuter語料庫已準備好主題編號。當我將Reuter文本聚類時,是否應該輸入相同的主題編號?並將我的聚類結果與Reuter的比較?

但是,在生產中,我如何根據主題實際聚類之前知道主題的數量。這有點像雞蛋問題。

+0

答案是魔術!實際上,除了#topic參數外,如果您使用的是原始LDA,則還需要設置alpha參數,beta參數。 – alvas

+1

沒有適當的解決方案,說數字x是正確的主題數量。所以他們最終使用HDP。等級狄利克雷過程。 http://metaoptimize.com/qa/questions/5221/automatically-selecting-the-number-of-topics-in-lda – alvas

+1

另請參閱http://link.springer.com/chapter/10.1007%2F978-3- 642-13657-3_43 – alvas

回答

0

你可以通過k方法來解決這個問題。通過剪影(或肘部曲線,但我想這將需要人工干預),您可以獲得最佳數量的羣集。您可以將此數字用作主題數量。

相關問題