2017-05-03 235 views
2

這與列的工作是我的表的一部分:在大熊貓

type n_b 
sp  2 
sp  2 
sp  3 
avn 2 
avn 4 
avn 3 
psp 1 
psp 3 
psp 5 
... 

另外我有一個數據集:

d = pd.Series({'sp':['98,00', '0,00', '68,00'], 'psp':['17,00', '7,60', '14,30'], 
      'avn':['15,00', '10,00', '4,30']}) 

我需要的價值從我的數據集相匹配在新列「c_t」中,取決於「類型」列中的值。這應該是什麼結果:

type n_b c_t 
sp  2 98,00 
sp  2  0,00 
sp  3 68,00 
avn 2 15,00 
avn 4 10,00 
avn 3  4,30 
psp 1 17,00 
psp 3  7,60 
psp 5 14,30 
... 

我的代碼如下所示:

d = pd.Series({'sp':['98,00', '0,00', '68,00'], 'psp':['17,00', '7,60', '14,30'], 
      'avn':['15,00', '10,00', '4,30']}) 

df['c_t'] = df['type'].map(d) 
print (df) 

但因爲我需要它

type n_b c_t 
sp  2 [98,00, 0,00, 68,00] 
sp  2 [98,00, 0,00, 68,00] 
sp  3 [98,00, 0,00, 68,00] 
avn 2 [15,00, 10,00, 4,30] 
avn 4 [15,00, 10,00, 4,30] 
avn 3 [15,00, 10,00, 4,30] 
psp 1 [17,00, 7,60, 14,30] 
psp 3 [17,00, 7,60, 14,30] 
psp 5 [17,00, 7,60, 14,30] 
... 

我怎樣才能解決這個問題它不工作?

UPD:其實,有文件

d1 = pd.Series({'ds':['104,50', '19,00', '10,00', '30,00', '0,00', '0,00', '16,00', '21,50'], 
      'zkp':['33,00', '100,00', '16,00', '3,30', '9,00', '0,00', '0,00', '0,00', '4,80', '78,50'], 
      'dgv':['96,00', '0,00', '194,50', '61,00', '0,00', '10,00', '0,00', '28,00', '0,00', '0,00', 
         '11,00', '30,00', '0,00', '0,00', '0,00', '16,00', '78,50'], 'sp':['98,00', '0,00', '68,00'], 
      'psp':['17,00', '7,60', '14,30'],'avn':['15,00', '10,00', '4,30']}) 

在更多的數據和表是巨大的:

type n_b Day_number 
ds  2  1 
ds  3  2 
ds  1  3 
ds  2  4 
ds  1  5 
ds  3  6 
ds  2  7 
ds  1  8 
sp  2  1 
sp  2  2 
sp  1  3 
avn 2  1 
avn 4  2 
avn 3  3 
psp 1  1 
psp 3  2 
psp 5  3 
sp  2  1 
sp  2  2 
sp  4  3 
... 

和所有類型(DS,ZKP,DGV,SP,PSP ,avn)在文件中。列「n_b」不影響列「c_t」。如果有幫助,請在「Day_number」列中編號。

而且結果應該是以下幾點:

type n_b Day_number  c_t 
ds  2  1   104,50 
ds  3  2   19,00 
ds  1  3   10,00 
ds  2  4   30,00 
ds  1  5    0,00 
ds  3  6    0,00 
ds  2  7   16,00 
ds  1  8   21,50 
sp  2  1   98,00 
sp  2  2    0,00 
sp  1  3   68,00 
avn 2  1   15,00 
avn 4  2   10,00 
avn 3  3    4,30 
psp 1  1   17,00 
psp 3  2    7,60 
psp 5  3   14,30 
sp  2  1   98,00 
sp  2  2    0,00 
sp  4  3   68,00 
... 
+0

N_B是否對數據集的位置有任何影響或者是它始終只是要在它在系列中出現的順序?並且會一直有3種類型? – pshep123

+0

不,列「n_b」不影響數據的放置。一行中的類型數量可能不同。但我提前定義它。我只是想,如果我有一個例子,我可以在其他價值觀上做到這一點。 –

回答

1

您可以從每組唯一值lists第一,然後創建輔助列g創建DataFramecumcount和最後joindf

#get lenghts of lists 
l = d.str.len() 
#repeat index values by lengths 
r = np.repeat(d.index.values, l) 
#flattening lists 
v = np.concatenate(d.values) 
#DataFrame constructor 
df1 = pd.DataFrame({'type':r, 'c_t':v}) 
print (df1) 
    c_t type 
0 15,00 avn 
1 10,00 avn 
2 4,30 avn 
3 17,00 psp 
4 7,60 psp 
5 14,30 psp 
6 98,00 sp 
7 0,00 sp 
8 68,00 sp 

df1['g'] = df1.groupby('type').cumcount() 
df['g'] = df.groupby('type').cumcount() 

df = df.join(df1.set_index(['type','g']), on=['type','g']).drop('g', axis=1) 
print (df) 
    ype n_b c_t 
0 sp 2 98,00 
1 sp 2 0,00 
2 sp 3 68,00 
3 avn 2 15,00 
4 avn 4 10,00 
5 avn 3 4,30 
6 psp 1 17,00 
7 psp 3 7,60 
8 psp 5 14,30 

編輯:

d1 = pd.Series({'ds':['104,50', '19,00', '10,00', '30,00', '0,00', '0,00', '16,00', '21,50'], 
      'zkp':['33,00', '100,00', '16,00', '3,30', '9,00', '0,00', '0,00', '0,00', '4,80', '78,50'], 
      'dgv':['96,00', '0,00', '194,50', '61,00', '0,00', '10,00', '0,00', '28,00', '0,00', '0,00', 
         '11,00', '30,00', '0,00', '0,00', '0,00', '16,00', '78,50'], 'sp':['98,00', '0,00', '68,00'], 
      'psp':['17,00', '7,60', '14,30'],'avn':['15,00', '10,00', '4,30']}) 

#get lenghts of lists 
l = d1.str.len() 
#repeat index values by lengths 
r = np.repeat(d1.index.values, l) 
#flattening lists 
v = np.concatenate(d1.values) 
#DataFrame constructor 
df1 = pd.DataFrame({'type':r, 'c_t':v}) 
df1['g'] = df1.groupby('type').cumcount() + 1 

df = df.join(df1.set_index(['type','g']), on=['type','Day_number']) 
print (df) 
    type n_b Day_number  c_t 
0 ds 2   1 104,50 
1 ds 3   2 19,00 
2 ds 1   3 10,00 
3 ds 2   4 30,00 
4 ds 1   5 0,00 
5 ds 3   6 0,00 
6 ds 2   7 16,00 
7 ds 1   8 21,50 
8 sp 2   1 98,00 
9 sp 2   2 0,00 
10 sp 1   3 68,00 
11 avn 2   1 15,00 
12 avn 4   2 10,00 
13 avn 3   3 4,30 
14 psp 1   1 17,00 
15 psp 3   2 7,60 
16 psp 5   3 14,30 
17 sp 2   1 98,00 
18 sp 2   2 0,00 
19 sp 4   3 68,00 
+0

謝謝!但是代碼只適用於一個值。在其他行中有NaN。是否有可能糾正它? –

+0

一個值?我不明白。你能解釋一下嗎? – jezrael

+0

我更新了問題。在我的情況下,它只適用於第一個值'dgv'。也就是說,列 「C_T」 看起來是這樣的:96.00 0,00 194,50 61,00 0,00 10,00 0,00 28,00 0,00 0, 00 11,00 30,00 0,00 0,00 0,00 16,00 78,50 NaN的 NaN的 NaN的 等 –

1

看來你幾乎沒有。現在,您已經有了:

df 
Out[758]: 
    type n_b     c_t 
0 sp 2 [98,00, 0,00, 68,00] 
1 sp 2 [98,00, 0,00, 68,00] 
2 sp 3 [98,00, 0,00, 68,00] 
3 avn 2 [15,00, 10,00, 4,30] 
4 avn 4 [15,00, 10,00, 4,30] 
5 avn 3 [15,00, 10,00, 4,30] 
6 psp 1 [17,00, 7,60, 14,30] 
7 psp 3 [17,00, 7,60, 14,30] 
8 psp 5 [17,00, 7,60, 14,30] 

一個步驟,讓你所需的輸出:

#use the row index%3 to select the element from the list under c_t column. 
df.c_t=df.apply(lambda x: x.c_t[x.name%3],axis=1) 

df 
Out[761]: 
    type n_b c_t 
0 sp 2 98,00 
1 sp 2 0,00 
2 sp 3 68,00 
3 avn 2 15,00 
4 avn 4 10,00 
5 avn 3 4,30 
6 psp 1 17,00 
7 psp 3 7,60 
8 psp 5 14,30