我非常需要。我已經有了一個我已經轉換成通用語言的語料庫,但是其中一些詞語沒有正確轉換成英文。因此,我的語料庫具有非ASCII字符,如「(U + 00F8)」。在R中使用Quanteda時,從文本語料庫中刪除非ASCII字符的最佳方法是什麼?
我使用Quanteda,我已經使用這個代碼導入我的文字:
EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
我的文集是由166個文件。以這種方式將文檔導入到R中後,對於我來說,擺脫這些非ASCII字符的最佳方式是什麼?
你可以用iconv來做到這一點。請參閱此答案的詳細信息:http://stackoverflow.com/a/9935242/5151349 – mkt