1
我怎樣才能讓BeautifulSoup只考慮網頁內容的某個部分?使用BeautifulSoup只考慮網頁內容的某個部分
例如,我要拿起所有div
標籤後僅「最看現在」 http://www.dailypress.com/在頁面上。
有云:
from bs4 import BeautifulSoup
import urllib2
url = ' http://www.dailypress.com/ '
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
,我可以使用:
str(soup).find(' Most viewed right now')
找到這句話,但它不是在確定我想要的部分內容很有幫助。
謝謝alecxe。順便說一下,如果沒有「最受關注」的課程,但是網頁上只有一行文字「現在最多查看」了? –
@MarkK然後你可以使用css選擇器,或者只是獲得父母,並用'div'標籤找到所有的孩子。或者,切換到'lxml'並使用xpath表達式。那麼,真的有很多選擇。 – alecxe
再次感謝,alecxe。 –