使用NekoHTML解析html文檔

我使用NekoHTML框架和xerces 2.11.0版本來解析HTML文檔。但我有這個簡單的代碼有問題：使用NekoHTML解析html文檔

DOMParser parser = new DOMParser(); 
System.out.println(parser.getClass().toString()); 
InputSource url = new InputSource("http://www.cbgarden.org"); 
try{ 
    parser.parse(url); 
    Document document = parser.getDocument(); 
    System.out.println(document.hasChildNodes()); 
    System.out.println(document.getBaseURI()); 
    System.out.println(document.getNodeName()); 
    System.out.println(document.getNodeValue()); 
}catch(Exception e){ 
    e.printStackTrace(); 
}

現在我把這裏的多次打印的結果：

類org.cyberneko.html.parsers.DOMParser
真
HTTP : //www.cbgarden.org
文件
空

所以我的問題是：什麼可能是錯的？不會引發異常，我遵循在NekoHTML中的使用規則中定義的規則。我的構建路徑庫與此優先級：

nekohtml.jar
nekohtmlSamples.jar
xercesImpl.jar
xercesSamples.jar
的xml-apis.jar

來源

2011-10-11 tt0686

我只是有一個關於這個問題的問題：爲什麼parser.getDocument（）方法返回一個文檔有兩個節點，其中一個是NULL？ – tt0686

我想你的問題是關於null？
文檔節點沒有價值。它只有子節點（如<html>女巫包含<head>和<body>）。

但是，如果您希望將整個頁面源代碼設置爲字符串，則只需使用URL其方法openStream()即可下載。

來源

2011-10-11 16:30:31

是的，我看到這個知道。如果我make document.getChildNodes（），結果將是兩個節點，其中一個返回「HTML」，如果我使用getLocalName（）和其他returs NULL.How我看到所有文檔，如果我使用document.toString它返回[document：null] – tt0686

好吧，我已經找到一個解決方案;）感謝您的幫助。 – tt0686

使用NekoHTML解析html文檔

回答

相關問題