1
我已經瀏覽了Stack Overflow的所有問題,關於爲什麼removeWords
不工作,對我而言,這不是已經發布的原因。「input string 1 is invalid UTF-8」in removeWords function
這是我有:
setwd("not shown")
filenames<-list.files(getwd(),pattern="*.txt")
files<-lapply(filenames,readLines)
docs<-Corpus(VectorSource(files))
writeLines(as.character(docs[[1]]))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs<-tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, removeWords, c(stopwords("english"))
一切正常,運行正常,直到爲removeWords
的最後一行。 這是我得到的錯誤:
錯誤GSUB(sprintf的( 「(* UCP)\ B(%S)\ B」,粘貼(也就是說,崩潰= 「|」)): 輸入字符串1是無效的UTF-8
爲什麼我收到這個錯誤有什麼想法?
莫非你粘貼導致此錯誤的最小輸入文本文件?是否檢查過您輸入fi le不包含非UTF-8字符? –
歡迎來到StackOverflow :)你有沒有檢查你的新行在你的輸入文件中是否一致(按照CR和LF字符)?文件末尾是否有空行或不正常? –