2017-03-02 156 views
2

我有以下兩個數據幀:覆蓋列大熊貓

df1 = pd.DataFrame({'ids':[1,2,3,4,5],'cost':[0,0,1,1,0]}) 
df2 = pd.DataFrame({'ids':[1,5],'cost':[1,4]}) 

我希望每當有id的匹配來更新與DF2的那些DF1的值。期望的數據幀是這一個:

df_result = pd.DataFrame({'ids':[1,2,3,4,5],'cost':[1,0,1,1,4]}) 

我怎樣才能從上述兩個數據框中得到?

我已經使用合併嘗試,但較少的記錄,是它讓兩列:

results = pd.merge(df1,df2,on='ids') 
results.to_dict() 
{'cost_x': {0: 0, 1: 0}, 'cost_y': {0: 1, 1: 4}, 'ids': {0: 1, 1: 5}} 

回答

1

您可以使用set_index並結合第一個要優先值DF2

df_result = df2.set_index('ids').combine_first(df1.set_index('ids')) 
df_result.reset_index() 

你得到

ids cost 
0 1 1 
1 2 0 
2 3 1 
3 4 1 
4 5 4 
1

你可以用左合併做到這一點:

merged = pd.merge(df1, df2, on='ids', how='left') 
merged['cost'] = merged.cost_x.where(merged.cost_y.isnull(), merged['cost_y']) 
result = merged[['ids','cost']] 

但是你能避免的需要如果將ID設置爲索引列,則合併(並獲得更好的性能);然後大熊貓可以用它來校準的結果對你:

df1 = df1.set_index('ids') 
df2 = df2.set_index('ids') 

df1.cost.where(~df1.index.isin(df2.index), df2.cost) 
ids 
1 1.0 
2 0.0 
3 1.0 
4 1.0 
5 4.0 
Name: cost, dtype: float64 
0

另一個採用臨時合併的數據幀,可以在使用後丟棄。

import pandas as pd 

df1 = pd.DataFrame({'ids':[1,2,3,4,5],'cost':[0,0,1,1,0]}) 
df2 = pd.DataFrame({'ids':[1,5],'cost':[1,4]}) 

dftemp = df1.merge(df2,on='ids',how='left', suffixes=('','_r')) 
print(dftemp) 

df1.loc[~pd.isnull(dftemp.cost_r), 'cost'] = dftemp.loc[~pd.isnull(dftemp.cost_r), 'cost_r'] 
del dftemp 

df1 = df1[['ids','cost']] 
print(df1) 


OUTPUT-----: 
dftemp: 
    cost ids cost_r 
0  0 1  1.0 
1  0 2  NaN 
2  1 3  NaN 
3  1 4  NaN 
4  0 5  4.0 

df1: 
    ids cost 
0 1 1.0 
1 2 0.0 
2 3 1.0 
3 4 1.0 
4 5 4.0