2012-07-12 38 views
3

我的問題很簡單: 有沒有辦法將java中的html解析爲DOM文檔,如果在htmlcontent中有像這樣的img-tag?在java中使用「未封閉標籤」解析html

<p><img src="..."></p> 

這是Codesnippet,讓我的SAXException在解析這些元素:

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 
DocumentBuilder db = dbf.newDocumentBuilder(); 

InputStream is = new ByteArrayInputStream(htmlcontent.getBytes()); 
Document dom = db.parse(is); 
is.close(); 

回答

3

我不這麼認爲,但jsoup能做到這一點。這不是DOM API,但它非常相似。

+0

工作非常適合我,謝謝! – billdoor 2012-07-12 14:53:52

+0

隨時批准答案 – Florent 2012-07-12 15:03:13

0

HTML不是XML。

除了使用XHTML時。

所以沒有理由XML解析器應該解析您的HTML。

使用像HtmlCleaner這樣的HTML解析器。