2016-12-18 109 views
1

我想從以下網址Excel文件加載到使用Python 3.5和熊貓一個數據幀/負載XLS:使用熊貓下載的URL文件

link = "https://hub.coursera-notebooks.org/user/ejquqxfjajkufidbixxvkx/notebooks/Energy%20Indicators.xls" 

首先我試圖手動下載的文件使用urllib.request裏爲了看它的權利後:

import urllib.request 
urllib.request.urlretrieve (link, "Energy Indicators.xls") 

我得到的文件「能源Indicators.xls」,是的,但它不是一個有效的xls文件。它看起來更像是一個擴展名改爲xls的html文件。

然後我試圖加載文件直接使用read_csv:

energy = pd.read_csv(link, skiprows = 16, header = 0, skipfooter = 38) 

但我得到的跟蹤信息錯誤:「pandas.io.common.CParserError:錯誤標記化數據C的誤差:在線路的預期1個字段12,看到2「。如果我試圖讀取它沒有參數skiprows,標題等,我得到了另一個錯誤:「ValueError:預計在41行中的1個字段,看到3」。

有什麼想法?順便說一句,我使用Mac OS Sierra和PyCharm社區版2016.3

+0

似乎需要'read_excel' - 'energy = pd.read_excel(link,skiprows = 16,header = 0,skipfooter = 38)' – jezrael

+0

差不多。我得到一個新的錯誤:「xlrd.biffh.XLRDError:不支持的格式或損壞的文件:期望的BOF記錄;發現b'\ n \ n \ n <!DOC'」 –

+0

嗯,看起來很複雜,因爲需要auatetification。 – jezrael

回答

2

對於這個特定的Coursera練習,而不是一般情況下,您可以使用read_excel函數中的整個URL,但只能使用'Energy Indicators.xls'

energy = pd.read_excel('Energy Indicators.xls',...)