我有一個日本內容正在轉換爲MS幫助與某種工具。問題是,第三方工具不使用UTF-8編碼,並建立垃圾字符的.xml:ISO編碼與日本幀文件
<param name="Name" value="ÉAÉvÉäÉPÅÉVÉáÉìdžÇ'ÇËÇØÅǵÇÃ'ÇÃ']">
<param name="Name" value="Test File">
<param name="Local" value="applications.htm#Xau1044547">
我試圖與編碼玩弄,現在生產:
<param name="Name" value="ÉAÉvÉäÉPÅ">
<param name="Name" value="Test">
<param name="Local" value="applications.htm#Xau1044547">
但隨着UTF-8編碼(其他工具)和正確的輸出應該是:
<param name="Name" value="アプリケーション">
<param name="Name" value="Small Business アプリケーションの起動 ">
<param name="Local" value="applications1.html#wp1044548">
是否有任何Java API我可以用它來解碼和編碼文件都具有正確的輸出。我不確定該工具使用了什麼,但我猜測它的「ISO-8859-1」。
謝謝。
我希望對文件做一些後期處理並獲取正確的字符。這就是爲什麼我一直在嘗試一些Java API來編碼解碼文件,迄今沒有任何成功。 – Sumaiya 2011-04-12 13:41:36
@Sumaiya:後處理是解決編碼問題的錯誤方法,因爲修復被錯誤使用編碼損壞的數據通常是不可能的。 – 2011-04-12 14:34:36