我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手,但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率:p(topic|q)或者p(q|topic) q是查詢。這是一個詞(如算法,機器人等),我希望找到指定區域的專家。 當我讀到這篇文章:how to get word-topic probability using mallet,其中一位用戶說
我是Mallet的新手,嘗試使用CRF功能來執行命名實體識別。我知道有一個例子顯示瞭如何在他們的網站上使用Java導入數據,但它處理純文本(不是訓練集格式)。 現在我有以下格式的可用培訓數據(網站上顯示的確切格式)。第一列是單詞,第二列是標籤。 a O
50 AGE
year AGE
old O
man GENDER
with O
a O
history O
of O
suici
我想將我的序列標籤任務中的木槌包裝到我的java代碼中。但是,我不確定如何在槌子網站上使用數據導入準則來做到這一點。有人能幫我解決嗎? 我的第一個問題是關於序列數據的導入。我在網站上看到的唯一數據格式是InstanceList,但是,我們應該如何用數據結構來描述序列。例如,如果我們有多個序列(A,B,C是標籤): S1:A B B B B A B B; S2:B A B B B C; S3:C B