使用正則表達式重新字符串匹配提取URL鏈接 - Python

我一直在嘗試使用re api從文本文件中提取URL。任何以http：//，https：//和www開頭的鏈接。使用正則表達式重新字符串匹配提取URL鏈接 - Python

該文件包含文本以及html源代碼，html部分很容易，因爲我可以使用BeautifulSoup提取它們，但普通文本似乎更具挑戰性。我在網上發現這似乎是URL提取的最佳實現，但它在某些標記上失敗，特別是它無法處理標記並將它們包含在URL中。任何幫助表示讚賞，因爲我不熟悉的字符串匹配都自己

這裏是簽名

sp1=re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", str(STRING)) 
sp2=re.findall('www.(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', str(STRING))

例子：

http://www.website.com/science/</span></a><o:p></o:p></span></div><div 
www.website.com/library/</span></a></span></i><span 
http://awebsite.com/Groups</a><div>

來源

2012-05-06 Eternity

re.findall(r'https?://[^\s<>"]+|www\.[^\s<>"]+', str(STRING))

的[^\s<>"]+部分匹配任何非空白字符，非引號，非角字符串字符以避免匹配字符串，例如：

<a href="http://www.example.com/stuff"> 
http://www.example.com/stuff</br>

來源

2012-05-06 23:49:04

真棒，工程就像一個冠軍:)感謝隊友 – Eternity

使用正則表達式重新字符串匹配提取URL鏈接 - Python

回答

相關問題