2012-08-08 46 views
0

我想寫一個正則表達式去掉除鏈接和<p><p></p>之外的所有HTML。去除鏈接除外的所有HTML標記<p>和</p>

現在,我只能刪除除links以外的所有HTML標記,但我不知道如何在同一時間保持links tagp標記?

順便說一下,有人可以推薦一些關於如何學習正則表達式的書籍?

+0

有沒有人想發佈該鏈接? – irrelephant 2012-08-08 05:49:17

+0

和3-2-1 .......提示Cthulu – JohnFx 2012-08-08 05:49:41

+0

[Regex匹配除了

之外的所有HTML標記](http://stackoverflow.com/questions/29869/regex-to-match -all-html-tags-except-p-and-p) – JohnFx 2012-08-08 05:52:02

回答

1

必須不能用正則表達式解析HTML,(如圖所示herehere),原因是HTML就可以了,不能很好地形成。

你需要使用一個專門的框架,你需要什麼,如果你使用的是Java,你可以嘗試JSoup,對於C#還有就是HTML Agility Pack和PHP存在Simple DOM Parser

+0

得到了,謝謝 – Daniel 2012-10-18 02:13:01

0

標準響應:退出正則表達式並備份。你做不是使用正則表達式來操縱HTML。 HTML不是一種常規的語言,因此不能用正則表達式可靠地處理。參見何樂不爲最終的答案:RegEx match open tags except XHTML self-contained tags