我正在解析HTML獲取匹配特定網址(我們稱之爲「目標網址」)的所有href
,然後獲取錨文本。我試過LinkExtractor,TokenParser,Mechanize,TreeBuilder模塊。對於以下HTML:如何提取包含在Perl中的錨中的HTML img標籤?
<a href="target_url">
<img src=somepath/nw.gf alt="Open this result in new window">
</a>
所有這些都將「在新窗口中打開此結果」作爲定位文本。 理想情況下,我希望看到空白值或返回的「圖像」字符串,以便我知道沒有錨文本,但href
仍與目標網址匹配(在此情況下爲http://www.yahoo.com) 。有沒有辦法使用其他模塊或Perl正則表達式來獲得所需的結果?
謝謝,
我編輯了你的帖子,以顯示我認爲你想說的話。請顯示您嘗試解析的確切HTML。除了將其納入問題之外,不要以任何其他方式進行編輯。 – 2009-12-31 08:32:38