熊貓read_html檢索表

pandas

2017-04-11 108 views 1 likes

我試圖從維基URL中提取奧運獎牌表，併爲此使用Python熊貓。熊貓read_html檢索表

import pandas as pd 
url = 'https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table' 
df = pd.read_html(url, skiprows=7, header = None) 
df[0]

不過，我失去了5行這些都是

名

阿富汗（AFG）阿爾及利亞（ALG）

阿根廷（ARG）

亞美尼亞（ARM）

一旦我設置skiprows = 0 - 6將返回災難表框架，所以至少我必須設置skiprows爲6.

是否有任何天賦推薦任何技巧檢索完美表，而不是手動插入行？

感謝

來源

2017-04-11 Takatjuta

回答

您可以更改skiprows到2然後df[1]選擇第二個表：

url = 'https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table' 
df = pd.read_html(url, skiprows=2, header = None) 
a = df[1] 
print (a) 
               0 1  2  3  4 \ 
0        Afghanistan (AFG) 14  0  0  2 
1         Algeria (ALG) 13  5  4  8 
2         Argentina (ARG) 24 21 25 28 
3         Armenia (ARM) 6  2  5  7 
4       Australasia (ANZ) [ANZ] 2  3  4  5 
5      Australia (AUS) [AUS] [Z] 26 147 163 187 
6         Austria (AUT) 27 18 33 36 
7        Azerbaijan (AZE) 6  7 11 25

來源

2017-04-11 11:29:51 jezrael

相關問題

1. 熊貓：read_html
2. 熊貓read_html（）缺少列
3. 麻煩使用熊貓read_html
4. 檢索熊貓數據框列索引
5. 熊貓read_html不存儲完整的數據
6. Python熊貓問題：read_html和python3-lxml安裝
7. 熊貓 - 從df.loc檢索價值
8. 如何用python熊貓的read_html讀取多個tbody的html表格？
9. 如何從熊貓read_html讀取並平整/規範化一系列表格？
10. Python - 熊貓索引