我使用NekoHTML框架和xerces 2.11.0版本來解析HTML文檔。 但我有這個簡單的代碼有問題:使用NekoHTML解析html文檔
DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
parser.parse(url);
Document document = parser.getDocument();
System.out.println(document.hasChildNodes());
System.out.println(document.getBaseURI());
System.out.println(document.getNodeName());
System.out.println(document.getNodeValue());
}catch(Exception e){
e.printStackTrace();
}
現在我把這裏的多次打印的結果:
- 類org.cyberneko.html.parsers.DOMParser
- 真
- HTTP : //www.cbgarden.org
- 文件
- 空
所以我的問題是:什麼可能是錯的? 不會引發異常,我遵循在NekoHTML中的使用規則中定義的規則。我的構建路徑庫與此優先級:
- nekohtml.jar
- nekohtmlSamples.jar
- xercesImpl.jar
- xercesSamples.jar
- 的xml-apis.jar
我只是有一個關於這個問題的問題: 爲什麼parser.getDocument()方法返回一個文檔有兩個節點,其中一個是NULL? – tt0686