試圖對Twitter數據進行一些分析。下載的鳴叫和使用下面的Twitter數據分析 - 術語文檔矩陣中的錯誤
# Creating a Corpus
wim_corpus = Corpus(VectorSource(wimbledon_text))
在嘗試下面創建一個TermDocumentMatrix,我得到一個錯誤和警告建立語料庫從微博的文字。
tdm = TermDocumentMatrix(wim_corpus,
control = list(removePunctuation = TRUE,
stopwords = TRUE,
removeNumbers = TRUE, tolower = TRUE))
Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 'i, j, v' different lengths
In addition: Warning messages:
1: In parallel::mclapply(x, termFreq, control) :
all scheduled cores encountered errors in user code
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
3: In TermDocumentMatrix.VCorpus(corpus) : invalid document identifiers
4: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
NAs introduced by coercion
任何人都可以指出這個錯誤是什麼意思?這可能與tm包有關嗎?
tm庫已導入。 我正在使用R版本:R 3.0.1和RStudio:0.97
你能用一個小文本文件(你可以共享的文件)重現這個錯誤嗎? –