2017-04-11 98 views
1

我試圖從維基URL中提取奧運獎牌表,併爲此使用Python熊貓。熊貓read_html檢索表

import pandas as pd 
url = 'https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table' 
df = pd.read_html(url, skiprows=7, header = None) 
df[0] 

不過,我失去了5行這些都是

阿富汗(AFG)阿爾及利亞(ALG)

阿根廷(ARG)

亞美尼亞(ARM)

一旦我設置skiprows = 0 - 6將返回災難表框架,所以至少我必須設置skiprows爲6.

是否有任何天賦推薦任何技巧檢索完美表,而不是手動插入行?

感謝

回答

1

您可以更改skiprows2然後df[1]選擇第二個表:

url = 'https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table' 
df = pd.read_html(url, skiprows=2, header = None) 
a = df[1] 
print (a) 
               0 1  2  3  4 \ 
0        Afghanistan (AFG) 14  0  0  2 
1         Algeria (ALG) 13  5  4  8 
2         Argentina (ARG) 24 21 25 28 
3         Armenia (ARM) 6  2  5  7 
4       Australasia (ANZ) [ANZ] 2  3  4  5 
5      Australia (AUS) [AUS] [Z] 26 147 163 187 
6         Austria (AUT) 27 18 33 36 
7        Azerbaijan (AZE) 6  7 11 25