topicmodels

1熱度

1回答

我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手，但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率：p(topic|q)或者p(q|topic) q是查詢。這是一個詞（如算法，機器人等），我希望找到指定區域的專家。當我讀到這篇文章：how to get word-topic probability using mallet，其中一位用戶說

0熱度

1回答

手動指定主題模型中的R

我有文字的語料庫與在CSV文件中的每一行唯一指定一個「主題」我很感興趣。如果我是用運行本文集的主題模型一個來自topicmodels包或lda的LDA或Gibbs方法，正如我所期望的那樣，每個「文檔」（我的CSV中的一行文本，我有先驗定義爲我感興趣的獨特主題）會得到多個主題。我知道這是主題模型的算法和詞組假設的結果。我很好奇不過是這個 1）是否有一個預fab'd包中的R即是專爲用戶使用經驗字分佈

0熱度

1回答

用LDA預測主題

我想從我使用R的'lda'包構建的適合中提取主題分配。我創建了一個適合： fit <- lda.collapsed.gibbs.sampler(documents = documents, K = K, vocab = vocab, num.iterations = G, alpha = alpha, eta = eta, initial = NULL, burnin = 0,

0熱度

1回答

Windows中的R無法處理某些字符

我在Linux中執行了LDA，並且在主題2中沒有得到像「ø」這樣的字符。但是，它們在Windows中運行時顯示。有誰知道如何處理這個？我使用包quanteda和topicmodels。 > terms(LDAModel1,5) Topic 1 Topic 2 [1,] "car" "ø" [2,] "build" "ù" [3,] "work" "network" [4,] "drive

1熱度

1回答

如何將僅有一個元素的「列表」的類更改爲R中的對象？

我用下面的代碼來創建主題模型的列表，其中主題數26〜35，按1： best.model <- lapply(seq(26,35, by=1), function(d){LDA(dtm2, d, method = "Gibbs", control = list(burnin = burnin, iter = iter, keep = keep))}) 當我打電話best.model，我得到： >

0熱度

1回答

您如何規範化R中文檔術語矩陣的行？

我有一個名爲train_dtm的DocumentTermMatrix，我想規範所有文檔中術語頻率的頻率計數。我現在面臨的問題是所產生的基質也應該是類型DocumentTermMatrix的，因爲我想歸一化矩陣傳遞給TopicModels包的另一種方法LDA在R. 下面是我使用的方法： docs_dtm <- DocumentTermMatrix(docs) 現在，我希望上面的documentt

32熱度

5回答

在R topicmodels中從DocumentTermMatrix中移除空文檔？

我做使用topicmodels包R.我創建一個語料庫對象，做一些基本的預處理，然後創建一個DocumentTermMatrix主題建模： corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) corpus <- tm_map(corpus, tolower) corpus <- tm_map(corpus,