2013-05-03 61 views
0

我目前使用SAX解析一些HTML。 不過,我現在已經解析有像這樣的文件:SAX - 無值的HTML屬性

`<OPTION VALUE="123" SELECTED>` 

因爲SELECTED不具有實際值設定,它拋出一個錯誤(沒有很好地形成的,無效的令牌)。有沒有辦法解決這個問題,所以我可以繼續使用SAX?

我的代碼:

 SAXParserFactory spf = SAXParserFactory.newInstance(); 
     SAXParser sp = spf.newSAXParser(); 
     XMLReader xr = sp.getXMLReader(); 

     xr.setContentHandler(sch); 
     InputSource is = new InputSource(Statics.SUBJECT_CODE_URL); 
     xr.parse(is); 

回答

1

您不能使用SAX來解析HTML。 HTML不是XML。一個完全有效的HTML文檔不是一個有效的XML文檔,你可以做的任何事情都不會讓XML解析器解析它。

0

用SAX,你可以解析XHTML,但你不能用一個巨大的成功解析HTML,因爲HTML是不是一個格式良好的XML。