中文文本挖掘

我用中文分詞做文本挖掘。我改變了數據類型爲逗號和雙引號的數據框。所以wordcloud很奇怪。就像這樣： strange wordcloud 中文文本挖掘

我的語法如下：檢查（d.corpus）

inspect(d.corpus) pic

d.corpus <- Corpus(DataframeSource(data.frame(as.character(d.corpus)))) 
tdm <- TermDocumentMatrix(d.corpus, control = list(wordLengths = c(2, Inf))) 
m1 <- as.matrix(tdm) 
v <- sort(rowSums(m1), decreasing = TRUE) 
d <- data.frame(word = names(v), freq = v) 
wordcloud(d$word, d$freq, min.freq = 5, random.order = F, ordered.colors = F, 
    colors = rainbow(length(row.names(m1))))

如何修改數據？

我試圖拆句法：

d.corpus <- Corpus(DataframeSource(data.frame(as.character(d.corpus)))).

爲什麼as.character(d.corpus)有3rows？

test1 <- as.character(d.corpus)

來源

2016-03-01 Chris Chung

我發現，我用循環編輯姓名（V）數據。

for (i in 1:length(names(v))) 
{ 
    names(v)[i] <- gsub('[\",]','',names(v)[i]) 
}

result

來源

2016-03-10 07:43:06

中文文本挖掘

回答

相關問題