我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手,但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率:p(topic|q)或者p(q|topic) q是查詢。這是一個詞(如算法,機器人等),我希望找到指定區域的專家。 當我讀到這篇文章:how to get word-topic probability using mallet,其中一位用戶說
我做使用topicmodels包R.我創建一個語料庫對象,做一些基本的預處理,然後創建一個DocumentTermMatrix主題建模: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en"))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus,