2016-07-19 127 views
1

我解析從包含這樣的行法國水文數據庫的文本文件:如何重音符號的文本轉換爲純文本[R

Date Q (m3/s) Validité F. exp. Libellé Fréquence exp 

當R讀取這些行要麼read.csvreadLines,口音用代碼轉義以形成:

Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp 

這些轉義碼可以防止簡單的grepl命令。因此,例如:

grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") 

產生以下結果:

[1] FALSE 
Warning message: 
In grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") : 
input string 1 is invalid in this locale 

什麼是對付這些轉義代碼,使我能夠把簡單的文本處理的最佳方式?

回答

1

試試這個:

namc <- readLines(con <- file('g:/filename.txt', "r", encoding='UTF-8')) close(con) cat(namc)

記得更改文件名和路徑。您應該可以使用greplgsub在此之後清理它