2013-05-10 66 views
2

我正在開發一些實用程序,它將不得不遍歷HTML文件集並對其進行處理。有沒有辦法使用JSoup操作部分HTML頁面

JSoup在解析和操作完成的文件方面表現出色(即他們有<html> ... </html>標籤)。

不過,對於部分頁面,即其傷口包含標記一樣的頁面,

<div id="leftnav">...</div> 

它解析正確,但是當doc.toString()doc.outerHtml()被調用,它返回完整的HTML(它包裝在<html> <body> ... </body> </html>標籤部分HTML內容)

這對我來說是一個問題,你能否讓我知道如果這樣的API在JSoup中不存在以這種方式清理/清除HTML內容?

謝謝。

回答

3

可以使用Xml Parser

創建一個新的XML解析器。此解析器假定不知道傳入標記,並且不將其視爲HTML,而是直接從輸入創建一個簡單的 樹。

換句話說:它不會創建典型的html結構(html,body,head等),並按照原樣輸入您的輸入。

下面是如何使用它:

// Using connect() 
Document doc = Jsoup.connect("<url>").parser(Parser.xmlParser()).get(); 

// Using parse() 
Document doc = Jsoup.parse("<html>", "<base url>", Parser.xmlParser()); 
+1

謝謝OLLO,這是需要什麼! – jatanp 2013-05-11 06:03:36

相關問題