好的,所以我知道這個問題已經多次以不同的形式提出,但是我遇到了特定語法的問題。我有一個包含html片段的大字符串。我需要找到每個沒有target =屬性的鏈接標籤(以便我可以根據需要添加一個標籤)。正則表達式排除行爲
^((?!target).)*
會給我導致'目標'的文字,<a.+?>[\w\W]+?</a>
會給我一個鏈接,但那是我卡住的地方。舉例:
<a href="http://www.someSite.com>Link</a> (This should be a match)
<a href="SomeLink.whatever target="_blank">Link</a> (this should not be a match).
有什麼建議嗎?使用DOM或XPATH不是真正的選項,因爲這個片段不是格式正確的html。
<插入必要的「不要用RegEx解析HTML/XML「評論在這裏> – Jay 2010-07-28 16:00:07
<在這裏插入有用的替代解析技術> – Quad64Bit 2010-07-28 16:18:41
不是一個真正的解決方案,但是我過去曾使用Jsoup庫來解析格式不正確的HTML。 http://jsoup.org/ – matiasf 2010-07-28 16:20:54