如何確定用於文本聚類的LDA（潛在Dirichlet分配）算法中的主題數量？

我正在使用LDA算法將許多文檔聚類到不同的主題中。 LDA算法需要一個輸入參數：主題的數量。我怎麼能確定這一點？如何確定用於文本聚類的LDA（潛在Dirichlet分配）算法中的主題數量？

我使用Reuter語料庫來對我的解決方案進行基準測試。並且Reuter語料庫已準備好主題編號。當我將Reuter文本聚類時，是否應該輸入相同的主題編號？並將我的聚類結果與Reuter的比較？

但是，在生產中，我如何根據主題實際聚類之前知道主題的數量。這有點像雞蛋問題。

答案是魔術！實際上，除了#topic參數外，如果您使用的是原始LDA，則還需要設置alpha參數，beta參數。 – alvas

沒有適當的解決方案，說數字x是正確的主題數量。所以他們最終使用HDP。等級狄利克雷過程。 http://metaoptimize.com/qa/questions/5221/automatically-selecting-the-number-of-topics-in-lda – alvas

另請參閱http://link.springer.com/chapter/10.1007%2F978-3- 642-13657-3_43 – alvas

你可以通過k方法來解決這個問題。通過剪影（或肘部曲線，但我想這將需要人工干預），您可以獲得最佳數量的羣集。您可以將此數字用作主題數量。

2017-03-01 09:42:15

回答