2016-02-26 14 views
0

我試圖運行一個看似簡單的任務,嘗試使用'textcat'程序包識別文本向量的語言。我已經清理文本數據(鳴叫的樣品),從而只留下標準字符,但是,當我嘗試如下R - textcat由於假設無效的UTF-8字符串而無法執行

text.df$language <- textcat(text.df$text) 

我收到以下錯誤消息,執行textcat命令:

Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker, : 
    not a valid UTF-8 string 

儘管下面的測試

nchar(text.df$text, "c", allowNA=TRUE) 

建議,有數據沒有非utf8字符。

有沒有人有任何想法?提前致謝。

回答

0

嘗試在您輸入文本iconv ...

text <- "i💙you" 
> iconv(text, "UTF8", "ASCII", sub="") 
[1] "iyou" 
+0

感謝您的回答 - 我怕我仍然得到同樣的錯誤信息,當我運行textcat ... – nikUoM

+0

你可能會需要提供這個問題要在這裏解決的可重現的例子。 – cory

相關問題