2016-12-29 66 views
0

我想爲2個表做一個動態模糊邏輯連接。我的意思是動態允許參數指定允許兩個表加入的變量。 下面的代碼說明是靜態代碼的以下鏈接修改後的版本: Python Pandas fuzzy merge/match with duplicates蟒蛇動態模糊邏輯加入

我編下面的動態代碼:

import pandas as pd 
import datetime 
from fuzzywuzzy import fuzz 
import difflib 

donors = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Tom Smith","Jane Doe","Jane Doe","Kat test"]), "Email": pd.Series(['[email protected]','[email protected]','[email protected]','[email protected]','[email protected]','[email protected]']),"Date": (["27/03/2013 10:00:00 AM","1/03/2013 10:39:00 AM","2/03/2013 10:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:39:00 AM","27/03/2013 10:39:00 AM"])}) 
fundraisers = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Kathy test","Tes Ester", "Jane Doe"]),"Email": pd.Series(['[email protected]','[email protected]','[email protected]','[email protected]','[email protected]']),"Date": pd.Series(["2/03/2013 10:39:00 AM","27/03/2013 11:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:40:00 AM","27/03/2013 10:39:00 AM"])}) 
donors["Date"] = pd.to_datetime(donors["Date"], dayfirst=True) 
fundraisers["Date"] = pd.to_datetime(donors["Date"], dayfirst=True) 
donors["code"] = donors.apply(lambda row: str(row['name'])+' '+str(row['Email']), axis=1) 
idx = donors.groupby('code')["Date"].transform(min) == donors['Date'] 
donors = donors[idx].reset_index().drop('index',1) 

def get_donors_v1(fund_var,don_var, don_tab,row=None): 
    d = don_tab.apply(lambda x: fuzz.ratio(x["%s" % don_var], 'row["%s" %fund_var]') * 2, axis=1) 
    d = d[d >= 75] 
    if len(d) == 0: 
     v = ['']*3 
    else: 
     v = don_tab.ix[d.idxmax(), ["%s"% don_var ,'Email','Date']].values 
    return pd.Series(v, index=['donor name', 'donor email', 'donor date']) 

trial=pd.concat((fundraisers, fundraisers.apply(get_donors_v1(fund_var="name",don_var="name",don_tab=donors), axis=1)), axis=1) 

我收到以下錯誤:

TypeError: get_donors_v1() takes exactly 4 arguments (3 given)

我應該將功能替換爲:

get_donors_v1(row=None,fund_var,don_var, don_tab) 

然後我得到以下錯誤:

TypeError: ("'NoneType' object has no attribute 'getitem'", u'occurred at index 0')

請幫助。

+1

我認爲默認值必須放在最後,所以get_donors_v1(fund_var,don_var,don_tab,row = None)可以做到這一點嗎? – Guido

+0

你好Guido,我試過了。沒有幫助:( – Seb

回答

2

在您的代碼示例中,您爲參數'row'提供值爲None的get_donors()。在下一行中,您嘗試將行用作映射(行[「%s」%fund_var「)),而不測試對象是否存在,即:not equals None。

對像'row [「%s」%fund_var]「這樣的對象進行索引會導致調用getitem方法,即None確實沒有。

+0

我試過這個,我不是很擅長python – Seb

+0

你好user508402,我修改了這個帖子,我嘗試了你的解決方法,但是得到這個TypeError:(「'Series'object is not callable」,u'ccurred at索引0')。我正在學習Python的過程 - 我很抱歉,如果我的查詢似乎迂腐 – Seb

+0

嗨Seb。'xxxx不可調用'錯誤意味着一個對象被調用像一個函數,所以它的標識符後面跟着例如:mySeries()。找到錯誤出現的那一行,並在那一行中調用被調用的系列對象,注意它不應該像「pd.Series(...)」那樣,是一個合法的構造函數。 – user508402