在r中使用htmlparse的拉丁字符的問題

我在嘗試使用葡萄牙語對web頁面進行webscrape時存在一些編碼問題。這是我的代碼：在r中使用htmlparse的拉丁字符的問題

library("RCurl") 

library("XML") 

html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 

par = htmlParse(html) 

x = xpathSApply(par, "//strong", xmlValue)[1] 

print(x) 

[1] "NOTA TÃ‰CNICA NÂº 58/2017/CGAA6/SGA2/SG/CADE"

我已經嘗試了一些事情，比如增加encoding="latin1"和encoding="UTF-8"到htmlParse，並添加.encoding="latin"和.encoding="UTF-8"到getURL。

我的系統似乎被設置到正確的位置，爲Sys.getlocale（）給我

Sys.getlocale() 
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252"

我出出主意這裏，並希望得到任何幫助。

來源

2017-08-25 Luis Paulo Jorge

我能夠使用你的代碼加上一個額外的工作。

## Your code 
library("RCurl") 
library("XML") 
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 
par = htmlParse(html) 
x = xpathSApply(par, "//strong", xmlValue)[1] 

## Addition 
x2 = iconv(x, from="UTF-8", to="latin1") 
print(x2) 
"NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE"

來源

2017-08-26 00:26:53 G5W

多謝，這對我的作品！（迄今爲止）這是唯一給我這個特定問題的頁面，這很有趣。 –

在r中使用htmlparse的拉丁字符的問題

回答

相關問題