2009-09-16 40 views

回答

1

您可以看看NekoHTML,這是一個在您的文檔中執行盡力而爲的清理和標記平衡的Java庫。這是解析格式錯誤的HTML(或無效的XML)文件的簡單方法。

它根據Apache 2.0許可證分發。

0

HTML Parser似乎支持從HTML到XML的轉換。然後,您可以使用通常的Java工具鏈構建DOM樹。

2

JTidy應該讓你做你想做的。

用法相當簡單,但解析是可配置的。例如:

InputStream in = ...; 
Tidy tidy = new Tidy(); 
// configure Tidy instance as required 
... 
... 
Document doc = tidy.parseDOM(in, null); 
Element root = doc.getDocumentElement(); 

JavaDoc託管於here

4

您可以使用TagSoup - 它是一個SAX兼容的解析器,可以將通用網頁中HTML格式不正確的內容清理爲格式良好的XML。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text 

gets correctly rewritten as: 

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text. 
+1

TagSoup非常好,尤其是如果你必須解析蹩腳的HTML – 2009-09-16 14:59:26