我收到了一些html文本,其中包含各種html標籤,如<table>, <a>, <img>
等。如何刪除除img以外的所有html標籤?
現在我想使用正則表達式來刪除除<img ...>
和</img>
(和大寫<IMG></IMG>
)之外的所有html標記。
如何做到這一點?
UPDATE:
我的任務很簡單,它只是打印文本內容(包括圖片)一個HTML作爲頭版的總結,所以我覺得正則表達式是好的,夠簡單。
再次更新
也許樣品會讓我的問題更好地理解:)
有一些HTML文本:
<html>
<head></head>
<body>
Hello, everyone. Here is my photo: <img src="xxx.jpg" />.
And, <a href="xxx">know more</a> about me!
</body>
</html>
我想保留,並刪除其他標籤。下面是我想:
Hello, everyone. Here is my photo: <img src="xxx.jpg" />. And, know more about me!
現在我這樣的代碼:
html.replaceAll("<.*?>", "")
但它會刪除所有<
和>
之間的內容,但我想保持<img xxx>
和</img>
,並刪除其他內容<and>
謝謝大家!
步驟1 ...不使用正則表達式:) – 2010-07-21 08:06:22
唐爲此使用正則表達式。你使用什麼編程語言? – 2010-07-21 08:06:32
+1,因爲知道爲什麼你不應該這樣做:) – willcodejavaforfood 2010-07-21 08:09:56