2016-06-13 133 views
2

我有這兩個表中的列:如何合併兩個表和轉行

T1

id x  y 
8 42  1.9 
9 30  1.9 

T2

id signal 
8 55 
8 56 
8 59 
9 57 
9 58 
9 60 

的目標是讓新表T3:

id x  y  s1  s2  s3 
8 42  1.9  55  56  58 
9 30  1.9  57  58  60 

如果我做這個手術,那麼就只執行合併而不調換:

pd.merge(T1, T2, on=['id']) 

如何創建s2s1,並s3,分別對應於行(每id行數始終是固定的等於3)?

+0

請@ unutbu的解決方案關注 - 它應該是比較快很多礦山 – MaxU

回答

4

UPDATE:

爲@Jeff寫在他的評論@ Ubuntu的解決方案應該是更快,更地道相比,我的:

In [40]: T1.merge(
    ....:  T2.pivot_table(index='id', 
    ....:     values='signal', 
    ....:     columns='s' + T2.groupby(['id'])['signal'].cumcount().astype(str)) 
    ....:  .reset_index() 
    ....:) 
Out[40]: 
    id x y s0 s1 s2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 

OLD答案:

你可以這樣做:

In [209]: %paste 
(t1.set_index('id') 
    .join(t2.groupby('id')['signal'] 
      .apply(lambda x: x.tolist()) 
      .apply(pd.Series)) 
    .reset_index() 
) 
## -- End pasted text -- 
Out[209]: 
    id x y 0 1 2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 

說明:

T2id和 「收集」 所有相應的信號轉換成列表

In [211]: t2.groupby('id')['signal'].apply(lambda x: x.tolist()) 
Out[211]: 
id 
8 [55, 56, 59] 
9 [57, 58, 60] 
Name: signal, dtype: object 

擴大名單列

In [213]: t2.groupby('id')['signal'].apply(lambda x: x.tolist()).apply(pd.Series) 
Out[213]: 
    0 1 2 
id 
8 55 56 59 
9 57 58 60 

最後由索引聯接兩個表id

PS如果你想重命名所有的數字列,你c一個做這種方式(假設你保存結果到rslt DF):

In [224]: rslt.columns = [c if c in ['id','x','y'] else 's{}'.format(c) for c in rslt.columns.tolist()] 

In [225]: rslt 
Out[225]: 
    id x y s0 s1 s2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 
+0

能否請您簡要評論這個代碼背後的邏輯是什麼? – Klue

+1

@Klue,我爲我的答案添加了一個簡短的解釋 - 請檢查 – MaxU

+1

只是供參考,使用像這樣的應用是非慣用和非高性能。使用像@ubuntu soln這樣的重塑運營商要好得多。 – Jeff

2

這是我使用groupbyunstack方式:

df = df1.merge(df2.groupby('id')['signal'].apply(lambda x: x.reset_index(drop=True)).unstack().reset_index()) 

df 
Out[63]: 
    id x y 0 1 2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 

如果我把它們分開:

df2t = df2.groupby('id')['signal'].apply(lambda x: x.reset_index(drop=True)).unstack().reset_index() 

df2t 
Out[59]: 
    id 0 1 2 
0 8 55 56 59 
1 9 57 58 60 

df = df1.merge(df2t) 

df 
Out[61]: 
    id x y 0 1 2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 
2

另一種方法是使用groupby/cumcount/pivot

import pandas as pd 
T1 = pd.DataFrame({'id': [8, 9], 'x': [42, 30], 'y': [1.9, 1.9]}) 
T2 = pd.DataFrame({'id': [8, 8, 8, 9, 9, 9], 'signal': [55, 56, 59, 57, 58, 60]}) 
T2['col'] = 's' + T2.groupby(['id'])['signal'].cumcount().astype(str) 
T2 = T2.pivot(index='id', columns='col', values='signal').reset_index() 
result = pd.merge(T1, T2) 
print(result) 

產生

id x y s0 s1 s2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60 

主要技巧是使用groupby/cumcount到每個組累積計數添加到T2:

In [81]: T2['col'] = 's' + T2.groupby(['id'])['signal'].cumcount().astype(str); T2 
Out[81]: 
    id signal col 
0 8  55 s0 
1 8  56 s1 
2 8  59 s2 
3 9  57 s0 
4 9  58 s1 
5 9  60 s2 

然後pivot可用於重塑T2 (或至少接近)所需的形式:

In [82]: T2 = T2.pivot(index='id', columns='col', values='signal').reset_index(); T2 
Out[82]: 
col id s0 s1 s2 
0  8 55 56 59 
1  9 57 58 60 

result可以通過合併來獲得:

In [83]: pd.merge(T1, T2) 
Out[83]: 
    id x y s0 s1 s2 
0 8 42 1.9 55 56 59 
1 9 30 1.9 57 58 60