2013-06-21 34 views
0

我收到了包含一些標記標記的文本。例如:使用java正則表達式處理標記標記

 
Jane and Jack <record>went</record> to <record>cinema</record>. 

我的目標是這句話轉換成:

簡傑克{空白}到{空白}。

當我使用下面的

text.replaceAll("<record>.*</record>", "{blank}"); 

我收到 「簡傑克{空白}」。而不是上面的句子。

解決此問題的最佳方法是什麼?

回答

2

這應做到:

text.replaceAll("<record>.*?</record>", "{blank}"); 

添加?,使比賽的「非貪婪」,因此數量最少的元素,而不是最相匹配。

另請注意,處理這些類型的替換最好留給XML解析器,除非它們是簡單的替換。

+1

+1提及HTML/XML/SGML /等。不要用正則表達式解析。 -1甚至提到如何去做。 –

+0

於是我獲得了0票。這樣可行。 –