使用UTF-8編碼讀取有中國特色的xml文件我想讀一個.xml文件,它看起來像:問題RStudio
<?xml version="1.0" encoding="UTF-8"?>
<province name="北京市" id="11">
<city name="市轄區" id="110100000000">
<county name="東城區" id="110101000000">
<town name="珍珠泉鄉" id="110229214000">
<village name="珍珠泉鄉社區居委會" id="110229214001" type="220"/>
<village name="珍珠泉村委會" id="110229214200" type="210"/>
<village name="稱溝灣村委會" id="110229214201" type="220"/>
<village name="廟梁村委會" id="110229214202" type="220"/>
<village name="下水溝村委會" id="110229214203" type="220"/>
<village name="上水溝村委會" id="110229214204" type="220"/>
<village name="下花樓村委會" id="110229214205" type="220"/>
<village name="八畝地村委會" id="110229214206" type="220"/>
<village name="轉山子村委會" id="110229214207" type="220"/>
<village name="水泉子村委會" id="110229214208" type="220"/>
<village name="雙金草村委會" id="110229214209" type="220"/>
<village name="小川村委會" id="110229214210" type="220"/>
<village name="小鋪村委會" id="110229214211" type="220"/>
<village name="倉米道村委會" id="110229214212" type="220"/>
<village name="南天門村委會" id="110229214213" type="220"/>
<village name="桃條溝村委會" id="110229214214" type="220"/>
</town>
</county>
</city>
</province>
我設置使用Sys.setlocale("LC_ALL", locale="Chinese (Simplified)")
系統區域設置爲簡化中國人,和讀使用XML封裝,UTF-8編碼doc = xmlParse(files[i], encoding = "UTF-8", useInternalNodes = TRUE)
文件,但是當我看到doc
,無法正常顯示中國漢字:
<village id="110229214001" type="220" name="鐝嶇彔娉変埂紺懼尯灞呭浼?/>
<village id="110229214200" type="210" name="鐝嶇彔娉夋潙濮斾細"/>
<village id="110229214201" type="220" name="縐版矡婀炬潙濮斾細"/>
<village id="110229214202" type="220" name="搴欐鏉戝浼?/>
<village id="110229214203" type="220" name="涓嬫按娌熸潙濮斾細"/>
<village id="110229214204" type="220" name="涓婃按娌熸潙濮斾細"/>
<village id="110229214205" type="220" name="涓嬭姳妤兼潙濮斾細"/>
<village id="110229214206" type="220" name="鍏憨鍦版潙濮斾細"/>
<village id="110229214207" type="220" name="杞北瀛愭潙濮斾細"/>
<village id="110229214208" type="220" name="姘存硥瀛愭潙濮斾細"/>
<village id="110229214209" type="220" name="鍙岄噾鑽夋潙濮斾細"/>
<village id="110229214210" type="220" name="灝忓窛鏉戝浼?/>
<village id="110229214211" type="220" name="灝忛摵鏉戝浼?/>
<village id="110229214212" type="220" name="浠撶背閬撴潙濮斾細"/>
<village id="110229214213" type="220" name="鍗楀ぉ闂ㄦ潙濮斾細"/>
<village id="110229214214" type="220" name="妗冩潯娌熸潙濮斾細"/>
我也試過系統區域設置爲English_United States.1252
,BU問題依然存在。 奇怪的是,當我使用doc
以上的一些函數時,例如xmlRoot(doc)
或getNodeSet(doc,"//village")[1]
,漢字顯示正確。但不是所有的功能,如果我使用xmlAttrs(getNodeSet(doc,"//village")[[1]])
,它有問題。
我GOOGLE了一下,它似乎是LINQ查詢。我應該在哪裏放入並運行這些命令?我對此很陌生。 –
是的,它是一個XML Linq(XDocument類)。只要將代碼像其他代碼一樣對待。沒有什麼特別的需要。 – jdweng
我試圖運行R中的代碼時出現錯誤消息錯誤:「使用系統」中的意外符號。我需要安裝一些軟件包嗎? –