在R中使用Quanteda時，從文本語料庫中刪除非ASCII字符的最佳方法是什麼？

我非常需要。我已經有了一個我已經轉換成通用語言的語料庫，但是其中一些詞語沒有正確轉換成英文。因此，我的語料庫具有非ASCII字符，如「（U + 00F8）」。在R中使用Quanteda時，從文本語料庫中刪除非ASCII字符的最佳方法是什麼？

我使用Quanteda，我已經使用這個代碼導入我的文字：

EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

我的文集是由166個文件。以這種方式將文檔導入到R中後，對於我來說，擺脫這些非ASCII字符的最佳方式是什麼？

2016-07-04 Ricardo

你可以用iconv來做到這一點。請參閱此答案的詳細信息：http://stackoverflow.com/a/9935242/5151349 – mkt

嘗試：

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

此轉換編碼爲ASCII，替換任何不可翻譯的字符（那些不在0-127 ASCII範圍）虛無。

2016-07-04 12:31:13

是'gsub（'[^ - 〜]'，''，x）'可能會更快一個可能的方法嗎？我在度假，所以沒有R來測試自己。 –

謝謝大家，這兩個解決方案都很棒 – Ricardo

我們如何知道從UTF-8轉換爲ASCII？詳細說明這一點的文件將會有所幫助。謝謝！ –

回答