topicmodels

    1熱度

    1回答

    我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手,但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率:p(topic|q)或者p(q|topic) q是查詢。這是一個詞(如算法,機器人等),我希望找到指定區域的專家。 當我讀到這篇文章:how to get word-topic probability using mallet,其中一位用戶說

    0熱度

    1回答

    我有文字的語料庫與在CSV文件中的每一行唯一指定一個「主題」我很感興趣。如果我是用運行本文集的主題模型一個來自topicmodels包或lda的LDA或Gibbs方法,正如我所期望的那樣,每個「文檔」(我的CSV中的一行文本,我有先驗定義爲我感興趣的獨特主題)會得到多個主題。我知道這是主題模型的算法和詞組假設的結果。 我很好奇不過是這個 1)是否有一個預fab'd包中的R即是專爲用戶使用經驗字分佈

    0熱度

    1回答

    我想從我使用R的'lda'包構建的適合中提取主題分配。我創建了一個適合: fit <- lda.collapsed.gibbs.sampler(documents = documents, K = K, vocab = vocab, num.iterations = G, alpha = alpha, eta = eta, initial = NULL, burnin = 0,

    0熱度

    1回答

    我在Linux中執行了LDA,並且在主題2中沒有得到像「ø」這樣的字符。但是,它們在Windows中運行時顯示。有誰知道如何處理這個?我使用包quanteda和topicmodels。 > terms(LDAModel1,5) Topic 1 Topic 2 [1,] "car" "ø" [2,] "build" "ù" [3,] "work" "network" [4,] "drive

    1熱度

    1回答

    我用下面的代碼來創建主題模型的列表,其中主題數26〜35,按1: best.model <- lapply(seq(26,35, by=1), function(d){LDA(dtm2, d, method = "Gibbs", control = list(burnin = burnin, iter = iter, keep = keep))}) 當我打電話best.model,我得到: >

    0熱度

    1回答

    我有一個名爲train_dtm的DocumentTermMatrix,我想規範所有文檔中術語頻率的頻率計數。我現在面臨的問題是所產生的基質也應該是類型DocumentTermMatrix的,因爲我想歸一化矩陣傳遞給TopicModels包的另一種方法LDA在R. 下面是我使用的方法: docs_dtm <- DocumentTermMatrix(docs) 現在,我希望上面的documentt

    32熱度

    5回答

    我做使用topicmodels包R.我創建一個語料庫對象,做一些基本的預處理,然後創建一個DocumentTermMatrix主題建模: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) corpus <- tm_map(corpus, tolower) corpus <- tm_map(corpus,