2013-08-30 12 views
-1

我試圖通過使用re.compile蟒蛇正則表達式無法找到所有圖像文件

title=re.compile("<img src='(.*)jpg'") 

中把握在網頁中的所有圖像文件,但它不能趕上所有以「JPG」」結束scentence ,它只有3個很長的字符串在有很多圖像的網頁上(很多鏈接以jpg結尾),有人可以幫我解決這個問題。 在此先感謝

回答

1

您的表情過於貪婪。玄宗它:

re.compile("<img src='([^']*)jpg'") 

然而,更好的辦法是使用適當的HTML解析器,像BeautifulSoup

for image in soup.find_all('img', src=True): 
    print image['src'] 

找到所有<img />標籤與src屬性,例如。

+0

+1用於解決問題以及提供更好的方法。 @hln,你應該查找不同的方式來做懶惰匹配 - Martijn使用這樣一個事實,即將會有一個結束引用,你可能會用'*?'有一個更復雜的正則表達式。 – vroomfondel