0
我試圖運行一個看似簡單的任務,嘗試使用'textcat'程序包識別文本向量的語言。我已經清理文本數據(鳴叫的樣品),從而只留下標準字符,但是,當我嘗試如下R - textcat由於假設無效的UTF-8字符串而無法執行
text.df$language <- textcat(text.df$text)
我收到以下錯誤消息,執行textcat命令:
Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker, :
not a valid UTF-8 string
儘管下面的測試
nchar(text.df$text, "c", allowNA=TRUE)
建議,有數據沒有非utf8字符。
有沒有人有任何想法?提前致謝。
感謝您的回答 - 我怕我仍然得到同樣的錯誤信息,當我運行textcat ... – nikUoM
你可能會需要提供這個問題要在這裏解決的可重現的例子。 – cory