2016-11-19 70 views
1

我正在使用美麗的湯4來解析正文文本中包含的鏈接的新聞站點。我能夠找到包含鏈接的所有段落,但每個鏈接都返回paragraph.get('href')返回類型none。我正在使用Python 3.5.1。任何幫助真的很感激。如何使用美麗的湯在指定的類中查找鏈接

from bs4 import BeautifulSoup 
import urllib.request 
import re 

soup = BeautifulSoup("http://www.cnn.com/2016/11/18/opinions/how-do-you-deal-with-donald-trump-dantonio/index.html", "html.parser") 

for paragraph in soup.find_all("div", class_="zn-body__paragraph"): 
    print(paragraph.get('href')) 

回答

1

您確實需要這個嗎?

for paragraph in soup.find_all("div", class_="zn-body__paragraph"): 
    for a in paragraph("a"): 
     print(a.get('href')) 

注意paragraph.get('href')試圖找到屬性href<div>標籤你找到。由於沒有這樣的屬性,它返回None。最可能的是你實際上必須找到所有標籤<a>,你的<div>(這可以用paragraph("a")做這是一個paragraph.find_all("a")快捷方式,然後每一個元素<a>看看他們href屬性。

的後裔