我有一個任務是使用Perl從HTML鏈接中提取內部html文本。從多個標記中提取innerHTML
下面是一個例子,
<a href="www.stackoverflow.com">Regex Question</a>
我想提取字符串:正則表達式問題
需要注意的是,內部文本可能是空的這個樣子。這個例子得到一個空字符串。
<a href="www.stackoverflow.com"></a>
並且內部文本可能被多個標籤所包圍,如下所示。
<a href="www.stackoverflow.com"><b><h2>Regex Question</h2></b></a>
我試圖寫一段Perl的正則表達式,但沒有成功。特別是,我不知道如何處理多個標籤。
爲什麼使用正則表達式而不是解析器? – hwnd 2014-10-27 03:42:18
其實,你的意思是「與他們打交道」。他們將匹配如果在一個標籤之間的權利? Perl有一些相當不錯的html解析器模塊可用。 – sln 2014-10-27 03:42:44