2017-06-04 24 views
0

我有所有相同的錨「視圖」中的其他種類的URL網址列表,像這樣:充分利用它的錨鏈接與Python

<a href="url1" target="_blank">view page</a> 

<a href="url2" target="_blank">view page</a> 

有沒有一種方法來提取所有這個特定的錨文本的網址?

謝謝

回答

0

要查找與文本視圖頁面鏈接,您可以使用find_all('a', text='view page'),然後遍歷結果集,並從中提取的網址:

from bs4 import BeautifulSoup  
soup = BeautifulSoup("""<a href="url1" target="_blank">view page</a> 
<a href="url2" target="_blank">view page</a> 
<a href="url2" target="_blank"></a>""", "html.parser") 

[a['href'] for a in soup.find_all('a', text='view page')] 
# [u'url1', u'url2'] 
+0

謝謝配合! – uskap