我有這個文件,這將在下文規定,如何在R/Python中使用多個頭文件讀取.xls文件以進行數據處理?
正如你可以看到它由許多頭層的,我怎麼能在R/Python中讀取這個文件,這樣我可以在適當的格式得到它處理它?
我有這個文件,這將在下文規定,如何在R/Python中使用多個頭文件讀取.xls文件以進行數據處理?
正如你可以看到它由許多頭層的,我怎麼能在R/Python中讀取這個文件,這樣我可以在適當的格式得到它處理它?
使用Pandas進行閱讀時,您可以手動指定列名。
import pandas as pd
file_name = r"/foo/bar/data.xlsx"
columns = ["Foo", "Bar", "Baz"]
df = pd.read_excel(file_name, header=None, skiprows=7, names=columns)
設置輯陣級列:
df = pd.DataFrame({'Foo':[1,2,3],'Bar':[2,4,6], "Baz": [3, 6, 9]})
columns = [("Cereals", "Rice", "Autumn"), ("Cereals", "Rice", "Summer"), ("Cereals", "Wheat", "Winter")]
df.columns = pd.MultiIndex.from_tuples(columns)
好的,但是數據集中的每一列都根據多個標題出現在不同的類別下,所以我如何能夠保留層次結構?例如「Autumn」欄位在「Rice」標題下,並且在「Cereals and Millets」下再次出現。 –
這就是爲什麼我問你認爲什麼是正確的。見編輯的答案。 – Batman
好吧!我第一次處理這種類型的文件有點困惑,即使我不知道什麼是適當的格式。感謝您的建議,我會嘗試使用這一個。 –
在熊貓,你可以看看層次索引(多指標)http://pandas.pydata.org/pandas-docs/stable/advanced.html
但是作爲對你經過適當的標題,然後做的是「蝙蝠俠」通過閱讀和應用您自己的專欄標題說上述說
任何使用R的解決方案? –
你認爲什麼是「正確的?」 – Batman
每列有兩個以上的標題,如何管理,以便我最終擁有正確的1個標題數據集! –