我試圖用Java編寫一個正則表達式,如下圖所示,以從<select>
開始和選擇</>
標籤的結束全部刪除。我寫了一個正則表達式,用於刪除從<start>
標籤開始的所有內容,如下所示。問題是它除去了第四行<select name="first" ... the popular
之外的所有內容。它會刪除該行中的所有內容,並忽略下一行and ... president"/>
中的內容。我想包括從開始和結束標記的一切。我怎樣才能做到這一點?正則表達式去除特定HTML標籤
str.replaceAll(".*<start.*", "");
實際字符串str有如下內容:
<select name="id" content="2454803.html"/>
<select name="nameid" content="2454803"/>
<select name="type" content="prd"/>
<select name="first" content="In 2004, Charlie, the popular
and charismatic senator , became the first president"/>
<select name="title" content="Charlie"/>
<h1>
<!--toc:insert content="checkbox" id="_1_0"/>-->
</h1>
<p class="tocline"><a href="2454803">Table of Contents</a></p>
您應該使用HTML解析器做那種東西 – fge
應該有一個過濾器,只是將您重定向到[爲什麼這不起作用](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)當你在標題中加入'regex'和'html/xml'!這和我們需要一個*「關閉,因爲這是關於解析正則表達式的HTML」* –
@fge這不是HTML本身。 Iam將這個整個html作爲一個字符串內容處理。 – user3161879