我正在讀取2個hive表中的數據。令牌表具有需要與輸入數據匹配的令牌。輸入數據將包含說明欄和其他欄。我需要拆分輸入數據,並且需要將每個拆分元素與令牌表中的所有元素進行比較。 目前我正在使用me.xdrop.fuzzywuzzy.FuzzySearch庫進行模糊匹配。下面 是我的代碼snippet- val tokens = sqlContext.sql("select token from tok
我試圖計算模糊比例爲多行2個的數據幀: DF1: id name
1 Ab Cd E
2 X.Y!Z
3 fgh I
DF2: name_2
abcde
xyz
我想計算所有的值之間的模糊比在df1.name和df2.name_2中: 要做到這一點,我有代碼: for i in df1['name']:
for r in df2['name_2']: