我想從Python正則表達式的web內容額外的網頁鏈接。這裏是我的Python腳本匹配的網址與Python正則表達式
webUrlList = re.findall(r"(?<=<a href=\").+(.html|/)(?=\")", content)
print webUrlList
和匹配webUrlList是這樣的:
['/', '.html', '/', '/', '/', '/',...]
請幫我找出原因,爲什麼這個腳本產生上面的輸出。
目標WEBURL字符串樣本:
<a href="http://ab.test.com/flower/1111027378112/purple/119735281586093.html"
<a href="/abcabcdef/coffee/su1/"
我無法重現您的引用輸出。當使用你提供的正則表達式時,'r'(?<= wpcarro
只需讓捕獲組成爲一個非捕獲組。並使用懶點匹配。 –