有兩個數據幀。爲簡單起見,我把它們如下:如何連接兩個DataFrame並在火花中有條件替換一列
DataFrame1
id | name
-----------
0 | Mike
1 | James
DataFrame2
id | name | salary
-------------------
0 | M | 10
1 | J | 20
2 | K | 30
我想加入上id
兩個數據幀,並只保留列name
在DataFrame1,同時保持如果沒有相應的id
,則原始的一個在DataFrame2。
它應該是:
id | name | salary
--------------------
0 | Mike | 10
1 | James | 20
2 | K | 30
到目前爲止,我只知道如何通過連接兩個dataframes:
df1.join(df2, df1("id")===df2("id"), "left").select(df2("id"), df1("name"), df2("salary"))
但它會使用空忽略名稱值 「K」。
謝謝!