蟒蛇正則表達式無法找到所有圖像文件

-1

title=re.compile("<img src='(.*)jpg'")

中把握在網頁中的所有圖像文件，但它不能趕上所有以「JPG」」結束scentence ，它只有3個很長的字符串在有很多圖像的網頁上（很多鏈接以jpg結尾），有人可以幫我解決這個問題。在此先感謝

2013-08-30 hln

您的表情過於貪婪。玄宗它：

re.compile("<img src='([^']*)jpg'")

然而，更好的辦法是使用適當的HTML解析器，像BeautifulSoup：

for image in soup.find_all('img', src=True): 
    print image['src']

找到所有<img />標籤與src屬性，例如。

2013-08-30 19:19:32

+1用於解決問題以及提供更好的方法。 @hln，你應該查找不同的方式來做懶惰匹配 - Martijn使用這樣一個事實，即將會有一個結束引用，你可能會用'*？'有一個更復雜的正則表達式。 – vroomfondel

回答