使用撒克遜語處理xml文件:http://meltwaternews.com/magenta/xml/html/18/2/rss/v2_406837.rss2.XML其中包括一些挪威人字符,如Æ,Ø,Å。 XML編碼爲UTF-8撒克遜語與挪威語字符問題
然而,發生錯誤:非法HTML字符:十進制152(http://meltwater.vacau.com/s2.png)
但是十進制152是〜,可以在原始的xml文件中找不到。
如果我使用windows-1252來處理這個帶有Saxon的xml文件,我實際上可以看到Æ,Ø,Å被錯誤解析爲Ã〜Ã¥(你可以在這裏看到小數點152)(http:/ /meltwater.vacau.com/s1.png)。
有人可以建議如何使它正確嗎?
是否錯誤識別它認爲不好的性格是在文件中的偏移?您鏈接到http://meltwater.vacau.com/s2.png似乎不起作用。 –
http://meltwater.vacau.com/*.png的鏈接似乎不起作用。另外,在windows-1252中,十進制數152不是'〜'(0x7F或127十進制),而是上標「〜」。 –
我通過Saxon 6.5.5和Saxon 9.4.0.3中的身份模板樣式表運行XML,沒有任何困難。樣式表中是否有壞字符,而不是XML輸入? –