我有2個數據框df1和df2。 df1有1個字符串類型的列鍵包含數組的Java spark數據框連接列
df1.show() key ---- k1 k2 k3 df2 has 2 columns df2.show() topic | keys ------------- t1 | [k1, k2] t2 | [pk1, pk2]
我想在df2.key中存在df1.key時加入2個數據幀。我看到以前的例子發佈在這裏Spark: Join dataframe column with an array
但是,我正在尋找一個完整的詞匹配。包含方法是加入具有部分匹配的行。我的意思是在上面的例子中,我不希望k2與[pk1,pk2]連接,因爲數組不包含密鑰k2,它包含pk2。
有人可以建議如何加入這種情況? 請在JAVA中提供示例。
完美!這對我來說也適用於Java!謝謝 !! – kamnemm