我通過解析內部HTML頁面建立一個Jsoup文檔,如何將Jsoup文檔轉換爲W3C文檔?
public Document newDocument(String path) throws IOException {
Document doc = null;
doc = Jsoup.connect(path).timeout(0).get();
return new HtmlDocument<Document>(doc);
}
解析時,我會想的Jsoup文檔轉換爲我org.w3c.dom.Document
我用這一個可用庫DOMBuilder,但我得到org.w3c.dom.Document
爲空。我無法理解這個問題,試圖搜索,但無法找到任何答案。
代碼,以生成W3C DOM文檔:
Document jsoupDoc=factory.newDocument("http:localhost/testcases/test_2.html"));
org.w3c.dom.Document docu= DOMBuilder.jsoup2DOM(jsoupDoc);
任何人都可以請幫我在這?
http://svn.apache.org/repos/asf/stanbol/trunk/enhancement-engines/htmlextractor/src/main/java/org/apache/stanbol/enhancer/engines/htmlextractor/impl/DOMBuilder的.java –