2016-08-19 141 views
1

我已經瀏覽了Stack Overflow的所有問題,關於爲什麼removeWords不工作,對我而言,這不是已經發布的原因。「input string 1 is invalid UTF-8」in removeWords function

這是我有:

setwd("not shown") 
filenames<-list.files(getwd(),pattern="*.txt") 
files<-lapply(filenames,readLines) 
docs<-Corpus(VectorSource(files)) 
writeLines(as.character(docs[[1]])) 
docs <- tm_map(docs, removePunctuation) 
docs <- tm_map(docs, removeNumbers) 
docs<-tm_map(docs, content_transformer(tolower)) 
docs <- tm_map(docs, stripWhitespace) 

docs <- tm_map(docs, removeWords, c(stopwords("english")) 

一切正常,運行正常,直到爲removeWords的最後一行。 這是我得到的錯誤:

錯誤GSUB(sprintf的( 「(* UCP)\ B(%S)\ B」,粘貼(也就是說,崩潰= 「|」)): 輸入字符串1是無效的UTF-8

爲什麼我收到這個錯誤有什麼想法?

+0

莫非你粘貼導致此錯誤的最小輸入文本文件?是否檢查過您輸入fi le不包含非UTF-8字符? –

+0

歡迎來到StackOverflow :)你有沒有檢查你的新行在你的輸入文件中是否一致(按照CR和LF字符)?文件末尾是否有空行或不正常? –

回答

0

檢查您的文件保存爲UTF-8,他們往往是ANSI或Unicode默認

相關問題