2012-11-01 38 views
1

所以我只想快速推出那個正則表達式是這個問題的一個合適的解決方案,它解析的HTML是,並將始終格式相同。正則表達式的幫助,來自標籤子標籤內的屬性的數據

的特定部分HTML我感興趣的解析類似於以下

<a href="" target="" onCick=""><img style="" onmouseover="" onmouseout="" src="" alt="" /></a> 

我感興趣的拉動「SRC」和「ALT」標記出該字符串的。正則表達式真的讓我感到困惑,因爲我真的不明白我在做什麼。所以真正的幫助將不勝感激。意味着很多,謝謝。

回答

1

您使用哪種語言?正則表達式方言有一些細微差別。

無論哪種方式,對JavaScript可以使用

var match = /src="(.*?)"\s+alt="(.*?)"/.exec(pieceOfHTML); 
// match[1] should be the src, match[2] the alt 

或Python的,

match = re.search(r'src="(.*?)"\s+alt="(.*?)', pieceOfHTML) 
# match.group(1) and match.group(2) respectively 

編輯重新註釋:

<a href=".*?"\s+target=".*?"\s+onCick=".*?"><img style=".*?"\s+onmouseover=".*?" onmouseout=".*?"\s+src="(.*?)"\s+alt="(.*?)" 

應該是一個不錯的正則表達式匹配只有需要的模式,寬鬆的空白。

+0

嘿,謝謝你的回答。我以前試過像這樣的正則表達式,但在這種情況下不適用。頁面上還有其他標籤,但不在標籤內。我對這些不感興趣,我只對中包含的內容感興趣。這讓我感到困惑。 –

+0

感謝您的答案! :) –