有沒有辦法使用JSoup操作部分HTML頁面

我正在開發一些實用程序，它將不得不遍歷HTML文件集並對其進行處理。有沒有辦法使用JSoup操作部分HTML頁面

JSoup在解析和操作完成的文件方面表現出色（即他們有<html> ... </html>標籤）。

不過，對於部分頁面，即其傷口包含標記一樣的頁面，

<div id="leftnav">...</div>

它解析正確，但是當doc.toString()或doc.outerHtml()被調用，它返回完整的HTML（它包裝在<html> <body> ... </body> </html>標籤部分HTML內容）

這對我來說是一個問題，你能否讓我知道如果這樣的API在JSoup中不存在以這種方式清理/清除HTML內容？

謝謝。

來源

2013-05-10 jatanp

可以使用Xml Parser：

創建一個新的XML解析器。此解析器假定不知道傳入標記，並且不將其視爲HTML，而是直接從輸入創建一個簡單的樹。

換句話說：它不會創建典型的html結構（html，body，head等），並按照原樣輸入您的輸入。

下面是如何使用它：

// Using connect() 
Document doc = Jsoup.connect("<url>").parser(Parser.xmlParser()).get(); 

// Using parse() 
Document doc = Jsoup.parse("<html>", "<base url>", Parser.xmlParser());

來源

2013-05-10 15:13:07 ollo

謝謝OLLO，這是需要什麼！ – jatanp 2013-05-11 06:03:36

有沒有辦法使用JSoup操作部分HTML頁面

回答

相關問題