我有一個csv文件列表("file1", "file2", ..."
)有兩列,但沒有標題標籤。我想爲它們分配標題標籤,並將它們分配爲DataFrame
,它由文件索引,然後由這些列標籤索引。例如,我想:用記錄中的熊貓索引幾個csv文件?
import pandas
mydict = {}
labels = ["col1", "col2"]
for myfile in ["file1", "file2"]:
my_df = pandas.read_table(myfile, names=labels)
# build dictionary of dataframe records
mydict[myfile] = my_df
test = pandas.DataFrame(mydict)
這產生一個數據幀,測試,通過"myfile1", "myfile2"...
索引然而,我想每個那些由"col1"
和"col2"
也被編入索引的。我的問題是:
我怎樣才能使它所以第一個指數是文件,第二個索引是我指定的列(在變量
labels
)?所以,我可以寫:test["myfile1"]["col1"]
現在,test["myfile1"]
只給了我的一系列記錄。
另外,我怎樣才能重新索引東西,使第一個索引是每個文件的列標籤,第二個是文件名?所以,我可以寫:
test["col1"]["myfile1"]
或print test["col1"]
,然後看到myfile1, myfile2
所示的"col1"
值等
DataFrame是一個2D數據結構,包含列和行。我不清楚你的數據是什麼樣子,但考慮使用面板,這是3D結構。 http://pandas.sourceforge.net/dsintro.html#panel – 2012-01-18 18:09:09