我輸入的是純文本字符串,並要求刪除所有的HTML標籤,除了像一些特定的標籤:除了從字符串在java中
<p>
<li>
<u>
<li>
如果這些特定的標記具有屬性像class
或id
,我想刪除這些屬性。
舉幾個例子:
<a href = "#">Link</a> -> Link
<p>paragraph</p> -> <p>paragraph</p>
<p class="class1">paragraph</p> -> <p>paragraph</p>
我曾經使用過此Remove HTML tags from a String走了,但它並不能完全回答我的問題。
是否可以由一組正則表達式的或處理我可以利用一些圖書館的?
如何約束是你的HTML輸入?如果是任意的(X)HTML,然後單獨的正則表達式可以[是不夠的(http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags)。諸如CDATA塊,註釋和腳本元素之類的東西可能會拋出簡單的正則表達式。 –
是的,它可能包含這些CDATA塊和JavaScript。我準備好利用一些圖書館。但只是想知道,如何將一個字符串中的JavaScript代碼和純文本區分開來。 – RandomQuestion