我有一個HTML字符串,替換URL到錨標記使用Python的正則表達式
I was surfing http://www.google.com, where I found my tweet,
check it out <a href="http://tinyurl.com/blah">http://tinyurl.com/blah</a>
<span>http://www.google.com</span>
此,
I was surfing <a href="http://www.google.com">http://www.google.com</a>, where I found my tweet,
check it out <a href="http://tinyurl.com/blah">http://tinyurl.com/blah</a>
<span><a href="http://www.google.com">http://www.google.com</a></span>
我試試這個Demo
我的Python代碼
import re
p = re.compile(ur'<a\b[^>]*>.*?</a>|((ftp|http|https):\/\/(\w+:{0,1}\w*@)?(\S+)(:[0-9]+)?(\/|\/([\w#!:.?+=&%@!\-\/]))?)', re.MULTILINE)
test_str = u"I was surfing http://www.google.com, where I found my tweet, check it out <a href=\"http://tinyurl.com/blah\">http://tinyurl.com/blah</a>"
for item in re.finditer(p, test_str):
print item.group(0)
Ou tput的:
>>> http://www.google.com,
>>> <a href="http://tinyurl.com/blah">http://tinyurl.com/blah</a>
那麼你錯過了什麼?你找到的網址,現在只是檢查它是不是已經和並取代,對吧? – mikus
@mikus我更新我的問題,當我在我的Python代碼中使用它時,它也返回錨標籤。 –
因此,所需的輸出只是「>>> http:// www.google.com」,「? –