2017-10-29 165 views
1

,我有以下結構的數據幀:數據錯誤在大熊貓數據框中使用功能和GROUPBY工會串

是myDF:

Entry Address   ShortOrdDesc 
0 988  Fake Address 1 SC_M_W_3_1 
1 989  Fake Address 2 SC_M_W_3_3 
2 992  Fake Address 3 nan_2 
3 992      SC_M_G_1_1 
4 992      SC_M_O_1_1 

有要在此完成的工作df,可以以行有機結合起來相同的條目。對於這些只有第一行有地址。我需要連接ShortOrdDesc列和地址。我發現這是一個非常有用的鏈接:這是使用

myobj = ordersToprint.groupby('Entry').apply(f) 

這將返回錯誤應用

def f(x): 
    return pd.Series(dict(A = x['Entry'].sum(), 
         B = x['Address'].sum(), 
         C = "%s" % '; '.join(x['ShortOrdDesc']))) 

Pandas groupby: How to get a union of strings

從這個工作我已經開發了以下功能:

TypeError: must be str, not int

看看我的數據,我沒有看到問題是什麼,因爲對'Entry'的整數運行.sum()應該工作,我相信。

我的代碼或我的方法有什麼錯誤?

回答

1

我覺得有些欄是數字,需要string

因此,使用astype,如果需要刪除NaN的add dropna

def f(x): 
return pd.Series(dict(A = x['Entry'].sum(), 
        B = ''.join(x['Address'].dropna().astype(str)), 
        C = '; '.join(x['ShortOrdDesc'].astype(str)))) 

myobj = ordersToprint.groupby('Entry').apply(f) 
print (myobj) 
      A    B        C 
Entry              
988  988 Fake Address 1      SC_M_W_3_1 
989  989 Fake Address 2      SC_M_W_3_3 
992 2976 Fake Address 3 nan_2; SC_M_G_1_1; SC_M_O_1_1 

另一種解決方案與agg,但隨後有必要重新命名列:

f = {'Entry':'sum', 
     'Address' : lambda x: ''.join(x.dropna().astype(str)), 
     'ShortOrdDesc' : lambda x: '; '.join(x.astype(str))} 
cols = {'Entry':'A','Address':'B','ShortOrdDesc':'C'} 
myobj = ordersToprint.groupby('Entry').agg(f).rename(columns=cols)[['A','B','C']] 
print (myobj) 
      A    B        C 
Entry              
988  988 Fake Address 1      SC_M_W_3_1 
989  989 Fake Address 2      SC_M_W_3_3 
992 2976 Fake Address 3 nan_2; SC_M_G_1_1; SC_M_O_1_1