我試圖創建一個雙向克(大的n克)詞雲使用下面的代碼 -無法得到n個克詞雲中的R
text_input <- scan("Path/Wordcloud.txt")
corpus <- Corpus(VectorSource(text_input))
corpus.ng = tm_map(corpus,removeWords,c(stopwords(),"s","ve"))
corpus.ng = tm_map(corpus.ng,removePunctuation)
corpus.ng = tm_map(corpus.ng,removeNumbers)
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm.bigram = TermDocumentMatrix(corpus.ng,control = list(tokenize = BigramTokenizer))
tdm.bigram
freq = sort(rowSums(as.matrix(tdm.bigram)),decreasing = TRUE)
freq.df = data.frame(word=names(freq), freq=freq)
head(freq.df, 20)
pal=brewer.pal(8,"Blues")
pal=pal[-(1:3)]
wordcloud(freq.df$word,freq.df$freq,max.words=100,random.order = F, colors=pal)
我看到的幾個網站類似的代碼被用於生成n克,但我在我的輸出中只有單個字組合。
的代碼不響應在最小和最大的改變被設置爲不同的值(2,3,4等)先後在NGramTokenizer功能。 我在代碼中丟失了什麼,或者有可能我在代碼中調用的庫(tm,ggplot2,wordcloud,RWeka)或它們的依賴項(如rJava)沒有響應?如果有人能夠就這個問題提出一些建議,或者建議修改上述代碼,我將非常感激。
感謝, Saibal
其他有問題。最近在R-Bloggers上的一些項目分析了美國總統的就職演說,並最終使用了用於bigrams的quanteda軟件包。 – lawyeR