我必須使用Document doc =jsoup.connect(someUrl).get()
和Elements body=doc.select("div.chapter")
刪除HTML實體及其內容
String myHtml = "
<div class="chapter">
<h1>Hello this is my example</h1>
<p>This is paragraph one</p>
<p>This is paragraph two <sup class="num">Nuisance 1</sup><span class="notes">Nuisance 2</span></p>
<p>This is paragraph three</p>
</div>"
我想刪除<sup> </sup>
和<span> <\span>
他們與JSOUP內容中提取HTML片段。我讀過使用正則表達式語法是一個壞主意。大多數的例子和答案都解決了這個問題,以去除標籤並保留內容。我想獲得的是:
String newHtml = "
<div class="chapter">
<h1>Hello this is my example</h1>
<p>This is paragraph one</p>
<p>This is paragraph two</p>
<p>This is paragraph three</p>
</div>"
我已經使用JSOUP沒有滿意的結果(它使SUP和SPAN實體/標籤)。
'not'去除未在指定的選擇返回元素查詢。它不會*進入*到每個元素。 –
請給我們一些努力! – Niranjan