2013-10-29 49 views
3

我已經使用木槌製作了一個並行主題模型。如何使用木槌獲得文字 - 主題概率

而且我想爲每個文檔獲得最好的單詞。

要做到這一點,我試圖得到一個話題話題概率矩陣。

我該怎麼做到這一點?

+0

你能告訴你迄今爲止試過的東西嗎? – bump

+0

什麼試圖得到?你想要一個文檔的頂級主題,還是一個主題的頂級單詞,還是兩者的混合? – bean5

回答

8

當您使用木槌建立主題時,您可以選擇一個名爲「--word-topic-counts-file」的選項。當您提供此選項並指定一個文件時,木槌會在文件的每一行中寫入(主題,詞語,概率)值。你可以稍後用C,Java或R(當然,任何語言)閱讀這個文件來創建你想要的矩陣。

2

只是爲了說明Praveen的答案。使用 「--word話題-數文件」 MALLET將創建一個文件,其中排第幾是這個樣子:

0伊麗莎白19:1
1李約瑟19:2 17:1
死亡2例19:2
3母17:1 19:1 14:1

其中第一行表示該單詞伊麗莎白一直存在的主題19曾經在;第二行意味着單詞needham與主題19相關聯兩次,並且主題17一次;依此類推。
雖然這個文件並沒有給出明確的概率,但可以用它來計算它們。

+0

當您計算概率時,您還需要包含alpha值。我不完全確定,但我相信計算將如[本評論]中所述(http://stackoverflow.com/questions/33251703/how-to-get-a-probability-distribution-for-a-話題在-槌#comment69702638_33251703)。 – senderle