0
我一直在使用MALLET來執行我的主題建模(LDA)。Mallet dirichelet參數高於1
我試圖發現數據集中的20個話題 結果如下(關鍵字的列表並不重要,這個問題):
0 0.05013 list_of_topic_keywords_0
1 0.06444 list_of_topic_keywords_1
2 0.04946 list_of_topic_keywords_2
3 0.14458 list_of_topic_keywords_3
4 0.09248 list_of_topic_keywords_4
5 0.04865 list_of_topic_keywords_5
6 0.0977 list_of_topic_keywords_6
7 0.0653 list_of_topic_keywords_7
8 0.04557 list_of_topic_keywords_8
9 0.07494 list_of_topic_keywords_9
10 0.03577 list_of_topic_keywords_10
11 0.02867 list_of_topic_keywords_11
12 0.04184 list_of_topic_keywords_12
13 0.05251 list_of_topic_keywords_13
14 0.04231 list_of_topic_keywords_14
15 0.03207 list_of_topic_keywords_15
16 0.13064 list_of_topic_keywords_16
17 0.04922 list_of_topic_keywords_17
18 1.0515 list_of_topic_keywords_18
19 0.04922 list_of_topic_keywords_19
我讀過的每一行中的第二個數字(例如0行中的0.05013)表示迪裏克萊特參數。我認爲這個數字代表了這個話題的重要性(在整個文件中的存在),並且我認爲總數應該總計爲1.
然而情況並非如此!僅查看主題18,其值爲1.0515。
有人能解釋一下這個參數究竟代表什麼以及爲什麼它對於某個特定的主題高於1?
在此先感謝