我是熊貓新手,我不知道做到這一點的最佳方式。熊貓 - 基於滿足條件的列合併行
我有我已經放置在兩個不同dataframes兩個文件:
>> frame1.head()
Out[64]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:37:490 163.7 NaN
1 05/18/2017 08:39:37:490 164.5 NaN
2 05/18/2017 08:40:37:490 148.7 NaN
3 05/18/2017 08:41:37:490 111.2 NaN
4 05/18/2017 08:42:37:490 83.6 NaN
>>frame2.head()
Out[66]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:38:490 7.5 NaN
1 05/18/2017 08:39:38:490 7.5 NaN
2 05/18/2017 08:40:38:490 7.5 NaN
3 05/18/2017 08:41:38:490 7.5 NaN
4 05/18/2017 08:42:38:490 7.5 NaN
我需要從幀1到「合併」的任何一行,在幀2中的任何行,是在一秒鐘內的彼此。
例如, 從幀1這一列:
0 05/18/2017 08:38:37:490 163.7 NaN
是該行的一秒內從幀2:
0 05/18/2017 08:38:38:490 7.5 NaN
所以,當他們是「合併」的輸出應該像這樣:
0 05/18/2017 08:38:37:490 163.7 7.5 NaN NaN
換句話說,一行有時間被另一個替換,a ND的所有剩餘的列都只是附加
我想出是這樣做的最接近的:
d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')
>>d3.head()
Date and Time Sample_x Unnamed: 2_x Sample_y Unnamed: 2_y
0 05/18/2017 08:38:37:490 163.7 NaN NaN NaN
1 05/18/2017 08:39:37:490 164.5 NaN NaN NaN
2 05/18/2017 08:40:37:490 148.7 NaN NaN NaN
3 05/18/2017 08:41:37:490 111.2 NaN NaN NaN
4 05/18/2017 08:42:37:490 83.6 NaN NaN NaN
但是,這不是一個條件合併 ... .I如果它們彼此在一秒之內就需要合併,而不僅僅是完全相同。
我知道我可以用類似的時間比較:
def compare_time(temp, sec=1):
return abs(current - temp) <= datetime.timedelta(seconds=sec)
然後使用。適用()或東西...但我不知道如何拼湊所有這一起
編輯:它看起來像pd.merge_asof做了很好的工作,但我也需要保留未在最後一幀以及
編輯匹配/合併的線路2:
個df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
'sample': np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
'sample': np.arange(4) })
blah = pd.merge_asof(df2, df1, on='datetime', tolerance=pd.Timedelta('1s')) \
.append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
blah
回報:
datetime sample_x sample_y
0 2017-01-01 00:00:00.000 0 100.0
1 2017-01-01 00:00:00.300 1 100.0
2 2017-01-01 00:00:00.600 2 100.0
3 2017-01-01 00:00:00.900 3 100.0
0 2017-01-01 00:00:00.000 100 NaN
1 2017-01-01 00:00:01.000 101 NaN
2 2017-01-01 00:00:02.000 102 NaN
3 2017-01-01 00:00:03.000 103 NaN
注意到它的保留原始行索引(零列出了兩次)..
您可以檢查'pd.merge_asof' https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html#pandas.merge_asof – Wen
每行數據幀的行大小有多大? – Parfait
如果r1的時間戳是05/18/2017 08:38:37:490,那麼r2的時間戳是05/18/2017 08:39:36:490,而r3的時間戳是05/18/2017 08:40:35:490',他們將如何合併? r1和r2在一秒之內,r2和r3也在一秒之內。但r1和r3不是。 – RagingRoosevelt