我只是想用正則表達式來檢索所有元素具有「//」在我的HTML字符串中的HTML標籤,我跟着回答了這個問題:Using BeautifulSoup to find a HTML tag that contains certain textBeautifulSoup找不到包含某些文字
然後我編寫一個類似:
from BeautifulSoup import BeautifulSoup
import re
html_text = \
"""
<html>
<!--<![endif]-->
<head>
<link rel="stylesheet" href="//abc.com/xyz" />
<meta rel="stylesheet" href="//foo.com/bar" />
</head>
</html>
"""
soup = BeautifulSoup(html_text)
for elem in soup(text=re.compile(r'//')):
print elem
我希望我會喜歡的結果:
//abc.com/xyz
//foo.com/bar
但我什麼也得不到。我不知道爲什麼他們的測試用例能夠正常工作,但我的是否有錯誤,或者我錯過了我的腳本中的某些內容?
在他們的例子中,他們正在尋找他們標籤的'text'內容,你的被定義爲'href'屬性。嘗試用'href'替換'text'(即'soup(href = re.compile(r「//」))')。 – zwer
@zwer非常感謝:D – Blurie