提取所有的URL我有這樣正則表達式從字符串
http://example.com/path/topage.htmlhttp://twitter.com/p/xyanhshttp://httpget.org/get.zipwww.google.com/privacy.htmlhttps://goodurl.net/
一個字符串,我想所有的URL/webaddress提取到一個數組。例如
urls = ['http://example.com/path/topage.html','http://twitter.com/p/xyan',.....]
這裏是我的方法,沒有工作。
import re
strings = "http://example.com/path/topage.htmlhttp://twitter.com/p/xyanhshttp://httpget.org/get.zipwww.google.com/privacy.htmlhttps://goodurl.net/"
links = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', strings)
print links
// result always same as strings
這應該對您有所幫助:http://regex101.com。你可以在那裏玩你的正則表達式,看看你的問題可能是什麼。 – idjaw
你必須保持領先'http(s)'? – Bahrom
是的,我將不得不@Bahrom –