0
我有大約150k文檔的非結構化數據。我正嘗試使用無監督學習算法對這些文檔進行分組。目前我在gensim Python中使用LDA(潛在Dirichlet分配)。對於LDAModel,我已經通過了num_topics = 20。因此,我的整個150k數據都屬於20個主題。LDA - 爲主題分配關鍵字
現在,我有這些羣體,我有2個問題:
- 我應該如何分配新的文件,以這些主題?
我正在採用的方法是: 計算每個主題文檔的單詞分數總和,並將文檔分配給分數最高的主題。但是,這並沒有給我帶來好的結果。
有沒有更好的方法來得到這個?
- 如何分配表示主題的主關鍵字?
如果你的主題是預定義的,這是一個分類,而不是一個聚類問題。 –
我修改了這個問題,我給出了20個作爲num_topics參數的預定義含義。 –