我試圖找到一種方法來清理一些非常草率的HTML(機器生成)。HTML標記替換/刪除
我的假設是這個解決方案的正則表達式,但我不確定從哪裏開始。
HTML一樣......
the <div>government’s</div> 「risk management」 efforts. As <br />
<span style="line-height:1.6em">critical infrastructure provides</span><br>
到HTML一樣......
the government's "risk management" efforts. As critical infrastructure provides
這意味着更換或取出幾個不同的標籤...
= ' '
<br /> = ' '
<br> = ' '
「 = "
」 = "
’ = '
<span> = REMOVE
<div> = REMOVE
style = REMOVE
我有幾個不同的文本編輯器(Sublime Text,TextMate等),我願意使用應用程序,applescript或其他任何東西來保存手動搜索每個這些。
感謝您的任何幫助。
看看https:// stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?rq=1。 – Zeta
[看看這個答案](http://stackoverflow.com/a/4234491/471272)。 – tchrist