之間的文本我在文檔中的html標記中有一些文本。文本看起來像這樣如何刪除<參考>和< /參考>
I need this text <ref> Some unwanted text </ref> I need this text too
和
I need this text <ref Some random text /> I need this text too
如何,所以我刪除不需要的文本與封閉標籤一起?
我試過使用這個正則表達式。但它不起作用。
<ref(.*?)>(.*?)</ref>
和
<ref(.*?)>
在Java中嘗試這種方式是沒有幫助:
regex = "<ref(.*?)>(.*?)</ref>";
p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE | Pattern.DOTALL | Pattern.MULTILINE);
m = p.matcher(s);
while(m.find()){
m.replaceAll(" ");
}
任何想法,我怎麼解決?
實際的HTML標記不會使用實體標識符像< – 2011-01-26 17:38:40
我錯過了補充一點,我有XML標記中的HTML格式的數據。 我解析了xml標籤,並檢索了html數據。除此之外,我需要刪除一些不需要的html標籤。這就是爲什麼HTML數據標記類似於<和> – 2011-01-26 17:46:16