2014-10-07 25 views
0

我一直在使用MALLET來執行我的主題建模(LDA)。Mallet dirichelet參數高於1

我試圖發現數據集中的20個話題 結果如下(關鍵字的列表並不重要,這個問題):

0 0.05013 list_of_topic_keywords_0 
1 0.06444 list_of_topic_keywords_1 
2 0.04946 list_of_topic_keywords_2 
3 0.14458 list_of_topic_keywords_3 
4 0.09248 list_of_topic_keywords_4 
5 0.04865 list_of_topic_keywords_5 
6 0.0977 list_of_topic_keywords_6 
7 0.0653 list_of_topic_keywords_7 
8 0.04557 list_of_topic_keywords_8 
9 0.07494 list_of_topic_keywords_9 
10 0.03577 list_of_topic_keywords_10 
11 0.02867 list_of_topic_keywords_11 
12 0.04184 list_of_topic_keywords_12 
13 0.05251 list_of_topic_keywords_13 
14 0.04231 list_of_topic_keywords_14 
15 0.03207 list_of_topic_keywords_15 
16 0.13064 list_of_topic_keywords_16 
17 0.04922 list_of_topic_keywords_17 
18 1.0515 list_of_topic_keywords_18 
19 0.04922 list_of_topic_keywords_19 

我讀過的每一行中的第二個數字(例如0行中的0.05013)表示迪裏克萊特參數。我認爲這個數字代表了這個話題的重要性(在整個文件中的存在),並且我認爲總數應該總計爲1.

然而情況並非如此!僅查看主題18,其值爲1.0515。

有人能解釋一下這個參數究竟代表什麼以及爲什麼它對於某個特定的主題高於1?

在此先感謝

回答

2

由於Dirichlet參數限制爲正實數。他們不是比例。 來自Dirichlet的樣本是比例的(它對單形有支持)。

第一名檢查:https://en.wikipedia.org/wiki/Dirichlet_distribution

尺寸確實反映相對重要性。如果用Dirichlet參數上的和來標準化一個特定的參數,你會得到該比例的期望值,但不要認爲這是該比例的錯誤。