2
我正在嘗試提取帶有正則表達式#([a-z0-9_]+)
的HTML文本中的主題標籤,但HTML屬性存在問題。正則表達式匹配hashtag,但不匹配HTML屬性
例如,在HTML文本:
hola que tal with #hash1.
hola que tal with #hash2
y <a href="hola.que.tal#hash3"> para #hash4. </a>
我想恢復 「HASH1」, 「HASH2」 和 「hash4」,但不 「hash3」。
我試着用lookarounds來解決它,下面的表達式:
(?<!<)#([a-z0-9_]+)(?!.*?>)
但沒有成功。
我如何才能做到這一點單個正則表達式?
使用一個html解析器,並最終使用xpath查詢來僅定位文本節點。然後使用一個基本的正則表達式爲每個文本節點找到你的井號標籤。 –
我知道我可以在幾個步驟中完成,但我需要用一個正則表達式來完成。謝謝@CasimiretHippolyte –
爲什麼你只想做一步(正則表達式)? –