我想寫一個正則表達式去掉除鏈接和<p>
和<p>
和</p>
之外的所有HTML。去除鏈接除外的所有HTML標記<p>和</p>
現在,我只能刪除除links
以外的所有HTML標記,但我不知道如何在同一時間保持links tag
和p
標記?
順便說一下,有人可以推薦一些關於如何學習正則表達式的書籍?
我想寫一個正則表達式去掉除鏈接和<p>
和<p>
和</p>
之外的所有HTML。去除鏈接除外的所有HTML標記<p>和</p>
現在,我只能刪除除links
以外的所有HTML標記,但我不知道如何在同一時間保持links tag
和p
標記?
順便說一下,有人可以推薦一些關於如何學習正則表達式的書籍?
您必須不能用正則表達式解析HTML,(如圖所示here和here),原因是HTML就可以了,不能很好地形成。
你需要使用一個專門的框架,你需要什麼,如果你使用的是Java,你可以嘗試JSoup,對於C#還有就是HTML Agility Pack和PHP存在Simple DOM Parser。
得到了,謝謝 – Daniel 2012-10-18 02:13:01
標準響應:退出正則表達式並備份。你做不是使用正則表達式來操縱HTML。 HTML不是一種常規的語言,因此不能用正則表達式可靠地處理。參見何樂不爲最終的答案:RegEx match open tags except XHTML self-contained tags
你編碼什麼編程語言?如果你使用PHP,它支持一個好的API:http://php.net/manual/en/function.strip-tags.php
有沒有人想發佈該鏈接? – irrelephant 2012-08-08 05:49:17
和3-2-1 .......提示Cthulu – JohnFx 2012-08-08 05:49:41
[Regex匹配除了
和
之外的所有HTML標記](http://stackoverflow.com/questions/29869/regex-to-match -all-html-tags-except-p-and-p) – JohnFx 2012-08-08 05:52:02