2015-12-16 95 views
0

我使用Jsoup來解析任意的HTML,到目前爲止它一直運行良好,但我遇到了問題。當給出下面的HTML,Jsoup返回無效的HTML(無關位刪除):Jsoup.parse返回無效的HTML

<div> 
    <a href=''> 
    <img src='' alt='The problem is here "I'm not sure what to do"'> 
    </a> 
</div> 

我有一個alt標籤隨附單引號包含轉義單引號和雙引號和我沒有任何控制在輸入不幸。當我通過Jsoup.parse運行它,我得到這個:

<div> 
    <a href=""> 
    <img src="" alt="The problem is here &quot;I" m not sure what to do"'> 
    </a> 
</div> 

img標籤結束這兩個未關閉的報價單擰我。我希望Jsoup會給我一些東西:

<div> 
    <a href=""> 
    <img src="" alt="The problem is here &quot;I'm not sure what to do&quot;"> 
    </a> 
</div> 

有沒有辦法使這成爲可能?

回答

0

jsoup的主頁做廣告:

jsoup實現了WHATWG的HTML5規範,並解析HTML相同的DOM現代瀏覽器做。

......這是它在做什麼。

所以,不,你不能讓它按你想要的方式解析代碼。

在將內容傳遞給jsoup之前,您需要修復錯誤。

+0

關於如何將其傳遞給Jsoup之前修正內容有任何建議嗎? – mplis

0

你可以試試這個:

<div> 
    <a href=""> 
    <img src="" alt="The problem is here &#34;I&#39;m not sure what to do&#34;"> 
    </a> 
</div>