2016-12-22 82 views
1

有沒有一種快速和良好的做法,通過它最接近的索引來加入pandas DataFrame值?我必須這樣做大數據框和我的黑客和解決辦法,我嘗試過,速度慢,因此不是非常有用。按最接近索引加入熊貓數據框值

可以說我有兩個數據框dfdf2。現在我想將df2的值加入df,這是關於它最接近/最接近的索引。

import numpy as np 
import pandas as pd 

df = pd.DataFrame(np.random.randint(0,100,size=(4, 6)), 
       index=[1,1.55,3.33,9.88], 
       columns=[1,2.66,4.66,8.33,11.11,12]) 

df2 = pd.DataFrame(np.random.randint(0,100,size=(2, 3)), 
       index=[1.51,3.31], 
       columns=[2.64,4.65,8.31]) 

In [23]: df 
Out[23]: 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  98  40  28  36  49  92 
1.55  52  51  61  64  28  98 
3.33  66  33  91  21  24  79 
9.88  30  21  13  62  89  22 

In [24]: df2 
Out[24]: 

     2.64 4.65 11.12 
1.51 999 999 999 
3.31 999 999 999 

# The result should look like the following: 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  98  40  28  36  49  92 
1.55  52  999 999 55  999 98 
3.33  66  999 999 67  999 79 
9.88  30  21  13  62  89  22 
+0

你如何定義「關閉」?我們在談論「價格合適」的規則嗎?或歐幾里德距離?或... – Back2Basics

回答

4

設置
因爲OP dataframes不一致

df = pd.DataFrame(
    1, 
    index=[1,1.55,3.33,9.88], 
    columns=[1,2.66,4.66,8.33,11.11,12]) 

df2 = pd.DataFrame(
    999, 
    index=[1.51,3.31], 
    columns=[2.64,4.65,8.31]) 

print(df) 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  1  1  1  1  1  1 
1.55  1  1  1  1  1  1 
3.33  1  1  1  1  1  1 
9.88  1  1  1  1  1  1 

print(df2) 

     2.64 4.65 8.31 
1.51 999 999 999 
3.31 999 999 999 

Trickiness我沒有時間來解釋。 Docs

kw = dict(method='nearest', tolerance=.3) 
df2.reindex(df.index, **kw).T.reindex(df.columns, **kw).T.combine_first(df) 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00 1.0 1.0 1.0 1.0 1.0 1.0 
1.55 1.0 999.0 999.0 999.0 1.0 1.0 
3.33 1.0 999.0 999.0 999.0 1.0 1.0 
9.88 1.0 1.0 1.0 1.0 1.0 1.0 

我會寧願做這個

df2.stack().reindex_like(df.stack(), **kw) 

但我得到:

NotImplementedError: method='nearest' not implemented yet for MultiIndex; see GitHub issue 9365

至少它會提供在將來的某個時候。

+0

使用reindex公差使用非常有趣。 –

+0

@TedPetrou表示同意,這很酷 – piRSquared

+0

真是一個很棒的解決方案!感謝您的輝煌專長!它正是我正在尋找 – Manuel