熊貓 - 基於滿足條件的列合併行

我是熊貓新手，我不知道做到這一點的最佳方式。熊貓 - 基於滿足條件的列合併行

我有我已經放置在兩個不同dataframes兩個文件：

>> frame1.head() 
Out[64]: 

    Date and Time   Sample Unnamed: 2 
0 05/18/2017 08:38:37:490 163.7 NaN 
1 05/18/2017 08:39:37:490 164.5 NaN 
2 05/18/2017 08:40:37:490 148.7 NaN 
3 05/18/2017 08:41:37:490 111.2 NaN 
4 05/18/2017 08:42:37:490 83.6 NaN 


>>frame2.head() 
Out[66]: 
Date and Time    Sample Unnamed: 2 
0 05/18/2017 08:38:38:490 7.5 NaN 
1 05/18/2017 08:39:38:490 7.5 NaN 
2 05/18/2017 08:40:38:490 7.5 NaN 
3 05/18/2017 08:41:38:490 7.5 NaN 
4 05/18/2017 08:42:38:490 7.5 NaN

我需要從幀1到「合併」的任何一行，在幀2中的任何行，是在一秒鐘內的彼此。

例如，從幀1這一列：

0 05/18/2017 08:38:37:490 163.7 NaN

是該行的一秒內從幀2：

0 05/18/2017 08:38:38:490 7.5 NaN

所以，當他們是「合併」的輸出應該像這樣：

0 05/18/2017 08:38:37:490 163.7 7.5 NaN NaN

換句話說，一行有時間被另一個替換，a ND的所有剩餘的列都只是附加

我想出是這樣做的最接近的：

d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer') 

>>d3.head() 
    Date and Time   Sample_x Unnamed: 2_x Sample_y Unnamed: 2_y 
0 05/18/2017 08:38:37:490 163.7 NaN NaN NaN 
1 05/18/2017 08:39:37:490 164.5 NaN NaN NaN 
2 05/18/2017 08:40:37:490 148.7 NaN NaN NaN 
3 05/18/2017 08:41:37:490 111.2 NaN NaN NaN 
4 05/18/2017 08:42:37:490 83.6 NaN NaN NaN

但是，這不是一個條件合併 ... .I如果它們彼此在一秒之內就需要合併，而不僅僅是完全相同。

我知道我可以用類似的時間比較：

def compare_time(temp, sec=1): 
    return abs(current - temp) <= datetime.timedelta(seconds=sec)

然後使用。適用（）或東西...但我不知道如何拼湊所有這一起

編輯：它看起來像pd.merge_asof做了很好的工作，但我也需要保留未在最後一幀以及

編輯匹配/合併的線路2：

個

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'), 
        'sample': np.arange(4)+100 }) 
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'), 
        'sample': np.arange(4) }) 

blah = pd.merge_asof(df2, df1, on='datetime', tolerance=pd.Timedelta('1s')) \ 
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x') 
blah

回報：

datetime sample_x sample_y 
0 2017-01-01 00:00:00.000 0 100.0 
1 2017-01-01 00:00:00.300 1 100.0 
2 2017-01-01 00:00:00.600 2 100.0 
3 2017-01-01 00:00:00.900 3 100.0 
0 2017-01-01 00:00:00.000 100 NaN 
1 2017-01-01 00:00:01.000 101 NaN 
2 2017-01-01 00:00:02.000 102 NaN 
3 2017-01-01 00:00:03.000 103 NaN

注意到它的保留原始行索引（零列出了兩次）..

來源

2017-09-05 Anna Amous

您可以檢查'pd.merge_asof' https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html#pandas.merge_asof – Wen

每行數據幀的行大小有多大？ – Parfait

如果r1的時間戳是05/18/2017 08:38:37:490，那麼r2的時間戳是05/18/2017 08:39:36:490，而r3的時間戳是05/18/2017 08：40：35：490'，他們將如何合併？ r1和r2在一秒之內，r2和r3也在一秒之內。但r1和r3不是。 – RagingRoosevelt

您可以使用merge_asof作爲@Wen建議，但一定要指定可選值爲tolerance。還要考慮設置匹配的direction的選項值，它可以是'後退'（默認），'最接近'或'前進'。

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s'))

這裏的樣本數據更詳細的解釋（請注意，我只是創造新的樣本數據，因爲我只能看到實際數據的前幾行）：

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'), 
        'sample': np.arange(4)+100 }) 
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'), 
        'sample': np.arange(4) }) 

df1 
Out[208]: 
      datetime sample 
0 2017-01-01 00:00:00  100 
1 2017-01-01 00:00:01  101 
2 2017-01-01 00:00:02  102 
3 2017-01-01 00:00:03  103 

df2 
Out[209]: 
       datetime sample 
0 2017-01-01 00:00:00.000  0 
1 2017-01-01 00:00:00.300  1 
2 2017-01-01 00:00:00.600  2 
3 2017-01-01 00:00:00.900  3 

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s')) 
Out[210]: 
      datetime sample_x sample_y 
0 2017-01-01 00:00:00  100  0.0 
1 2017-01-01 00:00:01  101  3.0 
2 2017-01-01 00:00:02  102  NaN 
3 2017-01-01 00:00:03  103  NaN

注意merge_asof做左連接，所以你可以通過改變DF1 & DF2的秩序得到了不同的答案：

pd.merge_asof(df2, df1, on='datetime', tolerance=pd.Timedelta('1s')) 
Out[218]: 
       datetime sample_x sample_y 
0 2017-01-01 00:00:00.000   0  100 
1 2017-01-01 00:00:00.300   1  100 
2 2017-01-01 00:00:00.600   2  100 
3 2017-01-01 00:00:00.900   3  100

編輯補充：文檔說merge_asof按設計做了左連接，但它似乎與真正的左連接不同，它排除了左數據框中不匹配的行。爲了解決這個問題，你可以做這樣的事情：

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s')) \ 
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x') 
Out[236]: 
      datetime sample_x sample_y 
0 2017-01-01 00:00:00  100  0.0 
1 2017-01-01 00:00:01  101  3.0 
2 2017-01-01 00:00:02  102  NaN 
3 2017-01-01 00:00:03  103  NaN

注意，你可能需要根據你是否擁有一個唯一索引和/或獨特的列調整drop_duplicates。

來源

2017-09-05 17:14:34 JohnE

我該如何保留行df2.2和df2.3？看起來像.6結尾的時間在結果數據框中丟失。 –

我如何保留未合併的行？注意在合併結果中，樣本值101,102,103缺失 –

'blah = pd.merge_asof（df2，df1，on ='datetime'，tolerance = pd.Timedelta（'1s'））\ .append（ df1.rename（columns = {'sample'：'sample_x'}））。drop_duplicates（'sample_x'）'（d2，d1的顛倒順序）看起來像是我想要的，但它有這種奇怪的效果，行索引爲零..（我會將它張貼在一個edit_ –

熊貓 - 基於滿足條件的列合併行

回答

相關問題