你應該以這種方式選擇他們班級的元素。
import requests
import bs4
url = 'http://www.imdb.com/chart/top'
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
rows = soup.select('.titleColumn > a')
for row in rows:
print(row.text)
或者你可以這樣做:
import requests
import bs4
url = 'http://www.imdb.com/chart/top'
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
rows = soup.find_all('td', class_='titleColumn')
for row in rows:
print(row.a.text)
的數據是從被嵌入到原始的HTML文件JSON對象負載,所以我們可以分析它,並獲得標題。
import requests
import bs4
import json
url = 'http://www.imdb.com/user/ur69187878/watchlist?ref_=wt_nv_wl_all_1'
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
# rows = soup.find_all('h3', class_='list-item-header')
js_elements = soup.find_all('script')
js_text = None
search_str = 'IMDbReactInitialState.push('
for element in js_elements:
text = element.text
if search_str in text:
js_text = text.strip()
break
json_start = js_text.index(search_str) + len(search_str)
json_text = js_text[json_start:-2]
json_obj = json.loads(js_text[json_start:-2])
for title in json_obj['titles']:
json_title = json_obj['titles'][title]
print(json_title['primary']['title'])
但我不得不說,這是不是攻擊這類問題的一般方法,如果你想有一個通用的解決方案用於其數據是從JSON或API加載的所有網頁,您可以使用其他方式,如Selenium
。
嘗試[selenium](http://selenium-python.readthedocs.io/) –
而不是網頁抓取,我建議使用[IMDbPY](https://pypi.python.org/pypi/IMDbPY)之類的東西。網絡刮是尷尬和脆弱的;總的來說,這是我儘量避免的。 – Chris