我正在使用正則表達式解析Java中的HTML文件,並且我想知道如何匹配所有href =」「元素做的而不是結束在.htm
或.html
,並且,如果匹配,捕捉引號之間的內容爲一組Java:匹配不以.htm結尾的所有字符串「
這是到目前爲止,我已經試過的:
href\s*[=]\s*"(.+?)(?![.]htm[l]?)"
href\s*[=]\s*"(.*?)(?![.]htm[l]?)"
href\s*[=]\s*"(?![.]htm[l]?)"
據我所知,與前兩個,引號之間的整個字符串正被捕獲爲第一組,包括.htm
(l
),如果它是存在的。
有誰知道我可以如何避免這種情況發生?
是否要捕獲htm和html文件? – Pracede 2014-10-01 20:44:54