我試圖將一堆HTML文檔轉換爲符合XML規範(通過java方法),並且有很多<br>
標籤,要麼(1)未封閉或(2)包含屬性。出於某種原因,我正在使用的正則表達式並未解決包含屬性的標籤。以下是代碼:試圖替換<br>,<BR>,<br />>>標籤與<br/>
htmlString = htmlString.replaceAll("(?i)<br *>", "<br/>");
此代碼適用於文檔中的所有<br>
標籤;它用<br/>
代替它們。然而,對於像
<BR style="PAGE-BREAK-BEFORE: always" clear=all>
它不會做任何事情。不管標籤在轉換之前的屬性如何,我都希望所有br標籤都是<br/>
。
我需要添加到我的正則表達式才能實現這個目標?
'。*'不是一個好主意。這種模式會與'
Lorem ipsum dolor sit amet'? – VGR