2016-02-04 178 views
0

我有一個數據幀熊貓DF迭代通過數據幀

name e_count e_start e_end 

aaaa 3  13,14,15, 18,20,25, 

bbbb 2  90,94,  100,102, 

e_count描述e_starte_end元件的數量。我想創建一個新的數據框,添加一列e_end-e_start。例如

name e_count e_start e_end  e_end-e_start 

aaaa 3  13,14,15, 18,20,25, 5,6,10, 

bbbb 2  90,94,  100,102, 10,8, 

我試過如下:

df['e_end-e_start'] = "" 
new_frame = pd.DataFrame(columns = df.columns) 
new_frame['e_end-e_start'] = "" 
new_frame_idx = -1 
for idx,row in df.iterrows(): 
      new_frame_idx = new_frame_idx + 1 
      new_row = df.ix[idx] 
      new_frame = new_frame.append(new_row,ignore_index = True)  
      df.ix[idx,'e_end-e_start'] =df.ix[idx,'e_end']-df.ix[idx,'target_end'] 
      new_frame.ix[new_frame_idx,'e_end-e_start'] =df.ix[idx,'e_end-e_start'] =df.ix[idx,'e_end']-df.ix[idx,'target_end'] 
print new_frame 

但我得到一個錯誤。你能幫我嗎?

回答

0

通常,您將獲得更好的性能存儲您的數據作爲整數,而不是由逗號分隔的數字字符串 。一種平坦的長格式,如

In [73]: df 
Out[73]: 
    name e_start e_end 
0 aaaa  13  18 
0 aaaa  14  20 
0 aaaa  15  25 
1 bbb  90 100 
1 bbb  94 102 

使計算更容易。這裏是你如何可以將數據幀轉換爲 平格式:

然後,計算出的差異,你可以使用

df['diff'] = df['e_end'] - df['e_start'] 

轉換回逗號分隔的字符串,

In [76]: df.groupby('name').agg(lambda x: ','.join(x.astype(str))) 
Out[76]: 
     e_start  e_end diff 
name        
aaaa 13,14,15 18,20,25 5,6,10 
bbb  90,94 100,102 10,8 
+0

我的原始數據框還有其他一些列,如'feature':['ccc','ccc']等等(爲了簡單起見,我在原始問題中忽略了這一點)。如果我使用df = pd.concat([df [['name']]] + dfs,axis = 1),其他列不會出現。你能告訴我如何獲得原始數據框的所有列嗎?我喜歡最後的表是在格式名稱特徵e_start e_end 0 AAAA CCC 13 18 0 AAAA CCC 14 20 0 AAAA CCC 15 25 1 BBB CCC 90 100 1 BBB CCC 94 102 – Ssank