我試圖從本文中提取文章文本(https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture)並排除底部的合法容器。文本部分看起來很容易,但似乎無法擺脫容器。我已將它與法律變量分開以便於使用。如何使用BeautifulSoup(Python)排除元素
這裏是我到目前爲止的代碼:
import requests
from bs4 import BeautifulSoup
base_url = 'https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture'
r = requests.get(base_url)
r_html = r.text
soup = BeautifulSoup(r_html)
legal = soup.find('div',{'class': 'legal-container'})
paragraphs = soup.find_all('p')
for text in paragraphs:
print text.get_text()
我應該如何去了解呢?
而不是排除,你不能定義比所有'p'標籤更好的選擇嗎? –
我試過了,但似乎找不到一個好方法。所有文本,包括合法容器中的文本都有
etc標籤。合法的容器特別在
之內,直到
;有沒有一種很好的方法來排除那些特別的或更好的定義p標籤? –
選擇器'div.article-main p'如何?文章中的所有段落 –