0
我有兩個數據框與時間列和值列,df1
和df2
。 df1
是形狀[30000000 x 20]
和df2
是形狀[400 x 20]
。我需要在df1
中創建一個新列,其中包含距離日期最近的df2
行中的df2
的值。這是我如何做到這一點:加速Pandas中的最近日期合併?
df2= df2.sort_values(by='time_col').reset_index(drop=True)
df1['closest'] = np.searchsorted(df2['time_col'].values, df1['time_col'].values)
df1['new_values'] = [df2.loc[x, 'value_col'] for x in sales['closest']]
這工作,但需要很長的時間。如同數千萬行數據幀一樣,數小時。
有沒有更有效的方法來做到這一點?