2014-06-19 97 views
3

我在列表中有很多單獨的數據框,每個數據框都有多索引列,並且是不同時間段和長度的時間序列。我願做三兩件事:使用Multiindex列和不規則時間戳連接Pandas DataFrames

  1. 彙集所有獨立dataframes
  2. 具有相同multiindexed列的任何dataframes追加和排序 沿着時間軸
  3. Dataframes不同multiindexed列沿着 柱軸串聯(軸= 1)

我知道,默認情況下'pandas.concat(objs,axis = 1)組合列和排序行索引,但我也希望數據框具有相同的標籤和水平將被加入一個很長的時間軸,而不是完全並排。

我還應該提到具有相同標籤和級別的數據幀在不同的時間段內相互連接但不重疊。

舉個例子:

first,second,third = rand(5,2),rand(5,2),rand(10,2) 

a = pd.DataFrame(first, index=pd.DatetimeIndex(start='1990-01-01', periods=5, freq='d')) 
a.columns = pd.MultiIndex.from_tuples([('A','a'),('A','b')]) 

b = pd.DataFrame(second, index=pd.DatetimeIndex(start='1990-01-06', periods=5, freq='d')) 
b.columns = pd.MultiIndex.from_tuples([('A','a'),('A','b')]) 

c = pd.DataFrame(third, index=pd.DatetimeIndex(start='1990-01-01', periods=10, freq='d')) 
c.columns = pd.MultiIndex.from_tuples([('B','a'),('B','b')]) 

pd.concat([a,b,c], axis=1) 

給出了這樣的:

Out[3]: 
    A B 
    a b a b a b 
1990-01-01 0.351481 0.083324 NaN  NaN  0.060026 0.124302 
1990-01-02 0.486032 0.742887 NaN  NaN  0.570997 0.633906 
1990-01-03 0.145066 0.386665 NaN  NaN  0.166567 0.147794 
1990-01-04 0.257831 0.995324 NaN  NaN  0.630652 0.534507 
1990-01-05 0.446912 0.374049 NaN  NaN  0.311473 0.727622 
1990-01-06 NaN  NaN  0.920003 0.051772 0.731657 0.393296 
1990-01-07 NaN  NaN  0.142397 0.837654 0.597090 0.833893 
1990-01-08 NaN  NaN  0.506141 0.056407 0.832294 0.222501 
1990-01-09 NaN  NaN  0.655442 0.754245 0.802421 0.743875 
1990-01-10 NaN  NaN  0.195767 0.880637 0.215509 0.857576 

是否有一個簡單的方法來得到這個?

d = a.append(b) 
pd.concat([d,c], axis=1) 

Out[4]: 
    A B 
    a b a b 
1990-01-01 0.351481 0.083324 0.060026 0.124302 
1990-01-02 0.486032 0.742887 0.570997 0.633906 
1990-01-03 0.145066 0.386665 0.166567 0.147794 
1990-01-04 0.257831 0.995324 0.630652 0.534507 
1990-01-05 0.446912 0.374049 0.311473 0.727622 
1990-01-06 0.920003 0.051772 0.731657 0.393296 
1990-01-07 0.142397 0.837654 0.597090 0.833893 
1990-01-08 0.506141 0.056407 0.832294 0.222501 
1990-01-09 0.655442 0.754245 0.802421 0.743875 
1990-01-10 0.195767 0.880637 0.215509 0.857576 

這裏的關鍵是,我不知道該怎麼dataframes將在列表進行排序基本上,我需要的東西,知道什麼時候該CONCAT(OBJ,軸= 1)或CONCAT(OBJ,軸= 0 ),並可以做到這一點,以結合我的數據框列表。也許熊貓已經有一些東西可以做到這一點?

回答

3

我不知道有一個行的方式來做到這一點(有可能)...
這一次我會考慮創建一個空框,然後填充它:

In [11]: frames = [a, b, c] 

獲取其索引和列的工會:

In [12]: index = sum(x.index for x in frames) 
     cols = sum(x.columns for x in frames) 

In [13]: res = pd.DataFrame(index=index, columns=cols) 

填補這個與每個幀(按標籤):

In [14]: for df in [a, b, c]: 
      res.loc[df.index, df.columns] = df 

In [15]: res 
Out[15]: 
        A      B 
        a   b   a   b 
1990-01-01 0.8516285 0.4087078 0.577000 0.595293 
1990-01-02 0.6544393 0.4377864 0.851378 0.595919 
1990-01-03 0.3123428 0.03825423 0.834704 0.989195 
1990-01-04 0.2314499 0.4971448 0.343455 0.770400 
1990-01-05 0.1982945 0.9031414 0.466225 0.463490 
1990-01-06 0.7370323 0.3923151 0.263120 0.892815 
1990-01-07 0.09038236 0.8778266 0.643816 0.049769 
1990-01-08 0.7199705 0.02114493 0.766267 0.472471 
1990-01-09 0.06733081 0.443561 0.984558 0.443647 
1990-01-10 0.4695022 0.5648693 0.870240 0.949072 
+0

啊,好主意!顯然不是非常快,但這不是真正的重點。 – pbreach