我有一個XML文件,它是數據庫的輸出。我正在使用Java SAX解析器來解析XML並以不同的格式輸出它。 XML包含一些無效字符,並且解析器拋出錯誤,如'Unicode字符無效(0x5)'剝離Java中的無效XML字符
除了預先處理文件並將其替換之外,是否有一種很好的方法可以去除所有這些字符?到目前爲止,我已經遇到了3個不同的無效字符(0x5,0x6和0x7)。這是一個大約4GB的數據庫轉儲,我們將要處理它很多次,所以每次我們得到一個新的轉儲以運行預處理器時,必須等待額外的30分鐘,這將是一個痛苦,這不是我第一次遇到這個問題。
執行角色有什麼意義呢?想必他們不是隨機的腐敗,所以不剝奪他們消除信息? – 2008-09-18 17:32:15
如果文件包含無效字符,則不是XML文件。請求它的創建者將來只創建格式良好的XML。過去我遇到過這個問題。人們似乎並不瞭解XML需要格式良好並且不包含垃圾。 – MarkR 2008-09-18 15:39:19
我同意100%不幸的是,這並不總是可能的(無能的技術人員,合同措詞等) – Mason 2008-09-18 15:41:21