2016-07-04 63 views
4

我非常需要。我已經有了一個我已經轉換成通用語言的語料庫,但是其中一些詞語沒有正確轉換成英文。因此,我的語料庫具有非ASCII字符,如「(U + 00F8)」。在R中使用Quanteda時,從文本語料庫中刪除非ASCII字符的最佳方法是什麼?

我使用Quanteda,我已經使用這個代碼導入我的文字:

EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM") 

我的文集是由166個文件。以這種方式將文檔導入到R中後,對於我來說,擺脫這些非ASCII字符的最佳方式是什麼?

+0

你可以用iconv來做到這一點。請參閱此答案的詳細信息:http://stackoverflow.com/a/9935242/5151349 – mkt

回答

4

嘗試:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "") 

此轉換編碼爲ASCII,替換任何不可翻譯的字符(那些不在0-127 ASCII範圍)虛無。

+0

是'gsub('[^ - 〜]','',x)'可能會更快一個可能的方法嗎?我在度假,所以沒有R來測試自己。 –

+1

謝謝大家,這兩個解決方案都很棒 – Ricardo

+0

我們如何知道從UTF-8轉換爲ASCII?詳細說明這一點的文件將會有所幫助。謝謝! –

相關問題