R - textcat由於假設無效的UTF-8字符串而無法執行

我試圖運行一個看似簡單的任務，嘗試使用'textcat'程序包識別文本向量的語言。我已經清理文本數據（鳴叫的樣品），從而只留下標準字符，但是，當我嘗試如下R - textcat由於假設無效的UTF-8字符串而無法執行

text.df$language <- textcat(text.df$text)

我收到以下錯誤消息，執行textcat命令：

Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker, : 
    not a valid UTF-8 string

儘管下面的測試

nchar(text.df$text, "c", allowNA=TRUE)

建議，有數據沒有非utf8字符。

有沒有人有任何想法？提前致謝。

2016-02-26 nikUoM

嘗試在您輸入文本iconv ...

text <- "iðŸ’™you" 
> iconv(text, "UTF8", "ASCII", sub="") 
[1] "iyou"

2016-02-26 18:48:37 cory

感謝您的回答 - 我怕我仍然得到同樣的錯誤信息，當我運行textcat ... – nikUoM

你可能會需要提供這個問題要在這裏解決的可重現的例子。 – cory

回答