0
值我有兩個RDD rdd1
和rdd2
星火RDD1集和RDD2做內部聯接,新價值在RDD1集
rdd1 = [(key1,value11), (key2,value12)]
rdd2 = [(key1, value21), (key3, value22)]
現在我要做一個內有rdd1
和rdd2
和示例結果加入這樣
rdd_join = [(key1,value11)]
在SQL它會是這樣的
SELECT rdd1.key,rdd1.value
FROM rdd1
INNER JOIN rdd2
WHERE rdd1.key = rdd2.key
有什麼想法?
如果你從你的RDD創建數據框,你可以簡單地執行'val joined = df1.join(df2,$「 df1Key「=== $」df2Key「,」inner「)' –