當我嘗試解析xml/html文檔的某個屬性時,出現奇怪的編碼問題。 這裏重複的例子,含有2個標題2項(注意這裏使用法國口音的)解析xml屬性:奇怪編碼問題
library(XML)
doc <- htmlParse('<note>
<item title="é">1</item>
<item title="ï">3</item>
</note>',asText=TRUE,encoding='UTF-8')
現在使用xpathApply
,我能讀懂我的項目是這樣。請注意,特殊的口音在這裏格式良好。
xpathApply(doc,'//item')
[[1]]
<item title="é">1</item>
[[2]]
<item title="ï">3</item>
但是當我嘗試閱讀我的屬性稱號,我得到這個:
xpathApply(doc,'//item',xmlGetAttr,'title')
[[1]]
[1] "é"
[[2]]
[1] "ï"
我試過其他的XPath版本一樣:
xpathApply(doc,'//item/@title')
xmlAttrs(xpathApply(doc,'//item')[[1]])
但是,這是行不通的。請幫忙嗎?
這對我很好。 R 3.0.0 i686-pc-linux-gnu – user1609452
在windows上,這個錯誤是可重現的。 – user1609452
當被誤解爲ISO 8859-1或windows-1252編碼數據時,字符串「Ã」和「Ã」是UTF-8編碼的「é」和「ï」的表示。 –