我使用Jsoup來解析任意的HTML,到目前爲止它一直運行良好,但我遇到了問題。當給出下面的HTML,Jsoup返回無效的HTML(無關位刪除):Jsoup.parse返回無效的HTML
<div>
<a href=''>
<img src='' alt='The problem is here "I'm not sure what to do"'>
</a>
</div>
我有一個alt
標籤隨附單引號包含轉義單引號和雙引號和我沒有任何控制在輸入不幸。當我通過Jsoup.parse
運行它,我得到這個:
<div>
<a href="">
<img src="" alt="The problem is here "I" m not sure what to do"'>
</a>
</div>
在img
標籤結束這兩個未關閉的報價單擰我。我希望Jsoup會給我一些東西:
<div>
<a href="">
<img src="" alt="The problem is here "I'm not sure what to do"">
</a>
</div>
有沒有辦法使這成爲可能?
關於如何將其傳遞給Jsoup之前修正內容有任何建議嗎? – mplis