是否可以使用什麼工具將html文檔解析爲字符串或文件,然後構造DOM樹以便開發人員可以通過一些API走樹。可能解析一個HTML文檔並構建一個DOM樹(java)
例如:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注:這是一個HTML文檔不是XHTML。
是否可以使用什麼工具將html文檔解析爲字符串或文件,然後構造DOM樹以便開發人員可以通過一些API走樹。可能解析一個HTML文檔並構建一個DOM樹(java)
例如:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注:這是一個HTML文檔不是XHTML。
您可以看看NekoHTML,這是一個在您的文檔中執行盡力而爲的清理和標記平衡的Java庫。這是解析格式錯誤的HTML(或無效的XML)文件的簡單方法。
它根據Apache 2.0許可證分發。
HTML Parser似乎支持從HTML到XML的轉換。然後,您可以使用通常的Java工具鏈構建DOM樹。
有幾種開源工具可以解析來自Java的HTML。
檢查http://java-source.net/open-source/html-parsers
你也可以檢查這個問題的答案:Reading HTML file to DOM tree using Java這幾乎是一樣的...
您可以使用TagSoup - 它是一個SAX兼容的解析器,可以將通用網頁中HTML格式不正確的內容清理爲格式良好的XML。
This is <B>bold, <I>bold italic, </b>italic, </i>normal text
gets correctly rewritten as:
This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
TagSoup非常好,尤其是如果你必須解析蹩腳的HTML – 2009-09-16 14:59:26
請包括「解析」作爲標記 – JuanZe 2009-09-16 14:22:31