我想從下面的晨星網站抽取數據:Webscraping財務數據來自晨星
http://financials.morningstar.com/ratios/r.html?t=IBM®ion=USA&culture=en_US
我目前要做的只是IBM,但希望最終能在別人的代碼輸入公司,並對此做同樣的事情。到目前爲止我的代碼低於:
import requests, os, bs4, string
url = 'http://financials.morningstar.com/ratios/r.html?t=IBM®ion=USA&culture=en_US';
fin_tbl =()
page = requests.get(url)
c = page.content
soup = bs4.BeautifulSoup(c, "html.parser")
summary = soup.find("div", {"class":"r_bodywrap"})
tables = summary.find_all('table')
print(tables[0])
的問題,我目前正在經歷一個不同的網頁更簡單我已經颳了程序似乎無法找到任何表,即使我能看到他們在爲HTML這一頁。
在研究這個問題最近計算器的問題是下面:
Python webscraping - NoneObeject Failure - broken HTML?
在一個他們解釋說,晨星公司的表是動態加載和使用的一些JSON代碼,我不熟悉,不知何故產生一個不同的網絡鏈接哪些設法颳了數據,但我不明白它來自哪裏?
感謝
嘿holdenweb,謝謝你們,我在過去曾經和Selenium一起玩過,並且可能會仔細研究一下。當我開始考慮這個問題時,我曾考慮過這個問題,但我的主要預測是,據我所知,Selenium不能在後臺運行。但是根據你和其他人對現代網頁所說的直接HTML和HTML的不斷變化,可能值得看看它。謝謝! – user5841014