如何使用Python從本網站刮取所有數據

我對網絡抓取很陌生。我想從here那裏獲取數據，主要是有關國家的年份，國家和國內生產總值的權利數據。如何使用Python從本網站刮取所有數據

我的代碼如下：

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
data = "http://databank.worldbank.org/data/reports.aspx?source=2&series=NY.GDP.MKTP.CD&country=#" 
page = urlopen(data) 

soup = BeautifulSoup(page,'html.parser') 
name_box = soup.find('div',attrs = {'class':'canvas'}) 
name = name_box.text.strip() 

print(name)

我可以得到的數據卻是隻有那些在頂部10+。

所以我的問題是，當數據不在頁面本身（即從別處導入）時，如何解決這些問題。預先感謝您的任何意見。

來源

2017-02-12 learnandshare

搜索JavaScript呈現，使用Chrome開發人員工具檢查請求，或使用硒 – eLRuLL

（1）您嘗試打開的URL中有空白。（2）你試圖接收哪些數據？ –

感謝您指出這一點，這是網站：http://databank.worldbank.org/data/reports.aspx?source=2&series=NY.GDP.MKTP.CD&country=#否則你可以點擊'這裏'在題。 – learnandshare

通常情況下，當JavaScript加載更多的數據時，它會調用端點。

當您撥打urlopen(data)時，您正在呼叫端點。在使用requests.get(data)或requests.post(data)的較新版本的python中也有類似的調用。 urlopen的文檔有大量的例子和用法。如果你看看這個請求，javascript會讓它有很多部分（頭文件，參數，方法等）。您可以在urlopen中將這些部分添加到您的請求中，以便複製（模仿）javascript所調用的調用。

如果您可以模仿該呼叫，那麼您會將隨後呼叫中的數據加載到您的湯中。然後你可以解析數據。

如果你不能模仿這個電話，那麼你最好的選擇就是使用某種無頭瀏覽器。最常用的幾種是Dryscrape和Selenium。我個人比較喜歡Dryscrape。

看看你的問題的意見，我看到你已經在使用硒。與滾動類似，當滾動完成時，通常會進行之前提到的後續調用。如果你可以完整地模仿它們（頭文件，params，qwargs等），那麼你可以讓你的瀏覽器加載數據。

來源

2017-02-12 20:23:14

謝謝。我還沒有嘗試硒，正在閱讀如何使用硒，然後才能開始嘗試解決問題。我想問你通過模仿對端點的呼叫意味着什麼，是否有任何示例或外行術語來表達它？ – learnandshare

我添加了對端點，請求和urlopen的說明。希望有所幫助。 –

現在更清楚了。謝謝。 – learnandshare

當我訪問鏈接時，有一個專門用於「下載選項」的完整菜單。爲什麼不使用它？

來源

2017-02-12 22:31:02

我希望我可以但這是我的任務。 – learnandshare

@austin認真的這個最佳答案我甚至在stackoverflow上看到：D –

如何使用Python從本網站刮取所有數據

回答

相關問題