<a href="/downloadsServlet?docid=abc" target="_blank">Report 1</a>
<a href="/downloadsServlet?docid=ixyz" target="_blank">Fetch Report 2 </a>
我能夠得到使用BeautifulSoup
上述形式的鏈接列表形式的HTML鏈接我的代碼如下
from bs4 import BeautifulSoup
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
listOfLinks = list(soup.findall('a'))
然而,我想在鏈接中找到包含文字「Fetch」的鏈接。
我試過形式
soup.findAll('a', re.compile(".*Fetch.*"))
但是,這是行不通的。我該如何選擇只有具有href的標籤a,並且文本部分中包含單詞「Fetch」?
太棒了!我將它重新編寫爲lambda函數。謝謝 ! – DrBug
使用soup.findAll(lambda標記:tag.has_attr('href')和re.search('Fetch',tag.text)) – DrBug