-1
我試圖通過使用re.compile蟒蛇正則表達式無法找到所有圖像文件
title=re.compile("<img src='(.*)jpg'")
中把握在網頁中的所有圖像文件,但它不能趕上所有以「JPG」」結束scentence ,它只有3個很長的字符串在有很多圖像的網頁上(很多鏈接以jpg結尾),有人可以幫我解決這個問題。 在此先感謝
我試圖通過使用re.compile蟒蛇正則表達式無法找到所有圖像文件
title=re.compile("<img src='(.*)jpg'")
中把握在網頁中的所有圖像文件,但它不能趕上所有以「JPG」」結束scentence ,它只有3個很長的字符串在有很多圖像的網頁上(很多鏈接以jpg結尾),有人可以幫我解決這個問題。 在此先感謝
您的表情過於貪婪。玄宗它:
re.compile("<img src='([^']*)jpg'")
然而,更好的辦法是使用適當的HTML解析器,像BeautifulSoup:
for image in soup.find_all('img', src=True):
print image['src']
找到所有<img />
標籤與src
屬性,例如。
+1用於解決問題以及提供更好的方法。 @hln,你應該查找不同的方式來做懶惰匹配 - Martijn使用這樣一個事實,即將會有一個結束引用,你可能會用'*?'有一個更復雜的正則表達式。 – vroomfondel