2015-02-05 86 views
0

使用Saxon HE(net version)wget和批處理,我試圖轉換我通過wget下載的頁面。SAXON錯誤 - 如何忽略/跳過它?

每當調用頁面上的命令,我收到以下錯誤:

SXXP0003: Error reported by XML parser: The entity name must immediately follow the '&' in the entity reference.

它在javescript的一個非常尷尬的線相關的線。但是,我無法控制我想要轉換的頁面,所以我無法對此做出任何反應。

有沒有辦法告訴撒克遜人跳過這樣的錯誤?我不介意它是否會丟棄整個標籤,因爲我不想從JavaScript元素中讀取任何數據。

非常感謝提前!

回答

1

如錯誤消息所示,撒克遜用於解析您提供給它的文檔標記的底層XML解析器報告的錯誤。如果這不是格式良好的XML,那麼任何XML解析器都會拒絕它。如果您將類別路徑中的http://home.ccil.org/~cowan/tagsoup/的TagSoup放入,撒克遜爲您提供the choice to use an HTML tag soup parser like TagSoup,而不是通過與選項-x:org.ccil.cowan.tagsoup.Parser進行調用。

+0

不能/不想使用TagSoup,因爲我嘗試爲此目的避免使用Java(使用Saxon的淨版本),但是您的提示讓我找到了正確的方式來找到「xmllint」,這顯然確實完全相同成功(即使它需要在文件上單獨調用)。 非常感謝! – DragonGamer 2015-02-05 17:08:18