可能解析一個HTML文檔並構建一個DOM樹（java）

是否可以使用什麼工具將html文檔解析爲字符串或文件，然後構造DOM樹以便開發人員可以通過一些API走樹。可能解析一個HTML文檔並構建一個DOM樹（java）

例如：

DomRoot = parse("myhtml.html"); 

for (tags : DomRoot) { 
}

注：這是一個HTML文檔不是XHTML。

來源

2009-09-16 Berlin Brown

請包括「解析」作爲標記 – JuanZe 2009-09-16 14:22:31

您可以看看NekoHTML，這是一個在您的文檔中執行盡力而爲的清理和標記平衡的Java庫。這是解析格式錯誤的HTML（或無效的XML）文件的簡單方法。

它根據Apache 2.0許可證分發。

來源

2009-09-16 14:19:16

HTML Parser似乎支持從HTML到XML的轉換。然後，您可以使用通常的Java工具鏈構建DOM樹。

來源

2009-09-16 14:20:45

有幾種開源工具可以解析來自Java的HTML。

檢查http://java-source.net/open-source/html-parsers

你也可以檢查這個問題的答案：Reading HTML file to DOM tree using Java這幾乎是一樣的...

來源

2009-09-16 14:21:24 JuanZe

JTidy應該讓你做你想做的。

用法相當簡單，但解析是可配置的。例如：

InputStream in = ...; 
Tidy tidy = new Tidy(); 
// configure Tidy instance as required 
... 
... 
Document doc = tidy.parseDOM(in, null); 
Element root = doc.getDocumentElement();

JavaDoc託管於here。

來源

2009-09-16 14:23:05 Andy

您可以使用TagSoup - 它是一個SAX兼容的解析器，可以將通用網頁中HTML格式不正確的內容清理爲格式良好的XML。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text 

gets correctly rewritten as: 

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.

來源

2009-09-16 14:49:38 Thiyagaraj

TagSoup非常好，尤其是如果你必須解析蹩腳的HTML – 2009-09-16 14:59:26

可能解析一個HTML文檔並構建一個DOM樹（java）

回答

相關問題