關於python網頁抓取的關於無關的知識。使用Python從網頁獲取表格
我需要從this頁面得到一個表:
http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF
這是我現在有:
from selenium import webdriver
from bs4 import BeautifulSoup
# load chrome driver
driver = webdriver.Chrome('C:/.../chromedriver_win32/chromedriver')
# load web page and get source html
link = 'http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF'
driver.get(link)
html = driver.page_source
# make soup and get all tables
soup = BeautifulSoup(html, 'html.parser')
tables = soup.findAll('table',{'class':'r_table3'})
tbl = tables[1] # ideally we should select table by name
我從哪裏出發?
有沒有什麼建議同時使用BeautifulSoup和硒具體的原因是什麼? – Goralight
有人告訴我,當頁面嵌入JavaScript時,你需要先加載它,然後用美麗的方式解析? –
我並不是說這是問題,而是因爲你需要它的原因 - 你需要整桌嗎?或者一個特定的細胞? – Goralight