我想刮一個網頁來收集數據以便學習數據挖掘。這個網頁數據包含一個43頁的大表。而且它還會在展開式菜單的最右側隱藏一些股票。如何使用R或Python刮取多個頁面的網頁
該網頁如下。
http://data.10jqka.com.cn/market/longhu/yyb/
import bs4
import requests
url = r"http://data.10jqka.com.cn/market/longhu/yyb/"
response = requests.get(url)
if response.status_code == 200:
content = response.content
soup = bs4.BeautifulSoup(content)
table_results = soup.findAll("table", {"class": "m_table"})
for item in table_results:
company_name = item.findAll("td", {"class": "tl"})[0].text.strip()
detail = item.findAll("td", {"class": "tc"})[0].text.strip()
c_rise = item.findAll("td", {"class": "c_rise"})[0].text.strip()
c_fall = item.findAll("td", {"class": "c_fall"})[0].text.strip()
cur = item.findAll("td", {"class": "cur"})[0].text.strip()
lhb_stocklist = item.findAll("div", {"class": "lhb_stocklist"})[0].text.strip()
print company_name, detail, c_rise, c_fall, lhb_stocklist
現在你做了什麼?任何代碼? – Eric 2014-11-04 03:43:45
@ yan9yu,我用XML和Curl嘗試了R。因爲我比R更強大。但我仍然不知道如何刮這張桌子。我會在您嘗試的同時更新我的代碼。 – 2014-11-04 03:48:05
@ yan9yu,你好,你能幫我一下,謝謝! – 2014-11-04 05:52:17