我有以下正則表達式(<.*?>.*?</.*?>|[\w[-]]+)\p{Punct}*
,它適用於大多數帶有標記的字符串,但如果標記沒有以空格開頭,那麼它會在找到匹配項時中斷標記。正則表達式分割字符串中的標記
請幫我修改這個正則表達式,使它不會中斷標記。我所看到的只是在空間上拆分,但如果空間位於標籤內,則不會。
例如:
BIRD-<abc attr="co_1">ab</span> @apos;<abc attr="co_12">cd</span>FEE DEF
我目前使用的匹配器來匹配這個模式,並獲得令牌
Matcher matcher = REGEX.matcher(newString);
while (matcher.find())
{
token = matcher.group();
}
請先看看這個:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags#1732454 – c00kiemon5ter