2016-08-11 38 views
0

很多年前,我曾經使用Perl和Python通過查看HTML源代碼中的數據來檢索某些網站。是否可以從這些網站提取不輸出HTML源代碼中的數據的數據?

現在我想另做的個人項目,涉及從提取的數值數據:

  1. Table elements on this PredictIt Website

  2. Individual graph elements (x and y for each) on this PredictWise Website

  3. Individual graph elements (x and y for each) on this Five Thirty Eight Website

這些網頁的HTML源代碼都不包含數字數據。有沒有辦法提取這些數據?如果是這樣,在哪裏?

我覺得必須有一種方法,因爲這些都是瀏覽器渲染圖表和圖形所需的前端信息。

(我無法找到提供給開發人員在這些網頁的原始數據,所以我想我必須提取數據自己。)

回答

1

第一鏈路上的表格元素確實是從呈現的HTML可讀。如果使用Chrome,請右鍵單擊文本並選擇「檢查」。 Chrome調試器將向您顯示包含數據的確切HTML元素。

其他環節比較困難。我沒有看到以原始HTML格式查看數據的方式,但在第二個鏈接上,我可以看到JSON數據爲服務器提供的數據提供了它們的數據。您可能能夠解析您的項目。 的數據是這樣的:

{"id":"1687","name":"Hawaii Caucus - DEM","notes":"","suppress_timestamp":"0","header":["Outcome","PredictWise","Derived Betfair Price","Betfair Back","Betfair Lay","Pollster","Derived PredictIt"],"default_sort":"2","default_sort_dir":"desc","shade_cols":["1"],"history":[{"timestamp":"03-17-2016 1:03PM","table":[["Hillary Clinton","43 %",null,null,null,null,"$ 0.425"],["Bernie Sanders","57 %",null,null,null,null,"$ 0.570"]]},... 

打開Chrome調試器在該網站上和GOTO網絡選項卡。從那裏,尋找「table_xxxx.json」的請求。您可以看到請求數據的URL以及從服務器返回的原始數據。

希望這會有所幫助!

相關問題