我全新的正則表達式,而我試圖解決這兩個以下問題:正則表達式來提取所有的鏈接和相應的鏈接文字
寫的正則表達式提取所有鏈接和來自HTML頁面的相應鏈接文本。例如,如果你想解析:
text1 <a href="http://example.com">hello, world</a> text2
並得到結果
http://example.com <tab> hello, world
做同樣的事情,而且處理情況< ...>嵌套:
text1 <a href="http://example.com" onclick="javascript:alert('<b>text2</b>')">hello, world</a> text3
到目前爲止,我仍然處在第一個問題上,並且我嘗試了幾種方法。我認爲我的第一個最好的答案是正則表達式(?<=a href=\")(.*)(?=</a>)
它給了我:http://example.com">hello, world
這對我來說似乎很好,但我不知道我應該如何接近第二部分。任何幫助或見解將不勝感激。
正則表達式與嵌套不好。你應該考慮一個真正的html解析器。 –
http://stackoverflow.com/a/1732454/6779307 –
那麼我該如何回答這個問題呢?只要說PLZ沒有正則表達式的HTML解析? –