1
我想從以下網址Excel文件加載到使用Python 3.5和熊貓一個數據幀/負載XLS:使用熊貓下載的URL文件
link = "https://hub.coursera-notebooks.org/user/ejquqxfjajkufidbixxvkx/notebooks/Energy%20Indicators.xls"
首先我試圖手動下載的文件使用urllib.request裏爲了看它的權利後:
import urllib.request
urllib.request.urlretrieve (link, "Energy Indicators.xls")
我得到的文件「能源Indicators.xls」,是的,但它不是一個有效的xls文件。它看起來更像是一個擴展名改爲xls的html文件。
然後我試圖加載文件直接使用read_csv:
energy = pd.read_csv(link, skiprows = 16, header = 0, skipfooter = 38)
但我得到的跟蹤信息錯誤:「pandas.io.common.CParserError:錯誤標記化數據C的誤差:在線路的預期1個字段12,看到2「。如果我試圖讀取它沒有參數skiprows,標題等,我得到了另一個錯誤:「ValueError:預計在41行中的1個字段,看到3」。
有什麼想法?順便說一句,我使用Mac OS Sierra和PyCharm社區版2016.3
似乎需要'read_excel' - 'energy = pd.read_excel(link,skiprows = 16,header = 0,skipfooter = 38)' – jezrael
差不多。我得到一個新的錯誤:「xlrd.biffh.XLRDError:不支持的格式或損壞的文件:期望的BOF記錄;發現b'\ n \ n \ n <!DOC'」 –
嗯,看起來很複雜,因爲需要auatetification。 – jezrael