加入2個RDDS在火花其中第一RDD的值是第二RDD的鍵

2017-10-16 217 views 0 likes

有兩種RDDS，第一個是一個（鍵，值）對rdd_1：加入2個RDDS在火花其中第一RDD的值是第二RDD的鍵

key1,[value1, value2]

第二個也是（鍵，值）對rdd_2：

(key2, value3), (key3, value4)...

我想加盟rdd1和rdd2和rdd_1的value1 & value2爲的。我需要的結果是

key1, [value1: value3, value2: value4]

我可以處理rdd1與flatMap，然後更改順序，這意味着：

key1,[value1, value2] -> (key1, value1),(key1, value2)->(value1, key1),(value2, key1)

然後加入rdd2，然後更改訂單&合併與KEY1。 .. 有沒有更高效的做到這一點？謝謝。

來源

2017-10-16 Peng He

回答

爲什麼不使用數據幀，比rdd快得多。有了數據框，你可以做這樣的事情

from pyspark.sql import functions as f 
x = [(0, [1,2]),(1,[7,8])] 
y = [(1,4),(2,6),(8,4), (7,3)] 

x = spark.createDataFrame(sc.parallelize(x)).toDF("id", "vals") 
y = spark.createDataFrame(sc.parallelize(y)).toDF("id2", "val") 

(x.join(y, f.expr("array_contains(vals, id2)")).select("id", 
                 f.struct(["id2", "val"]).alias("map")). 
                 groupBy("id").agg(f.collect_list("map").alias("map"))).show() 



+---+--------------+ 
| id|   map| 
+---+--------------+ 
| 0|[[1,4], [2,6]]| 
| 1|[[8,4], [7,3]]| 
+---+--------------+

來源

2017-10-16 13:12:10 ashwinids

相關問題

11. 火花：基於另一個RDD
12. 找到孔成一個DateTime火花RDD
13. 星火：RDD（按鍵，列表）來RDD（鍵，值）的擴展
14. 火花RDD發現通過鍵
15. 如何在RDD中添加唯一值火花
16. 火花斯卡拉RDD
17. RDD濾波器階火花
18. RDD分區火花Streaming
19. 刪除的RDD的第一個和最後一行星火
20. RDD訪問另一個RDD中的值
21. 在一對RDD上迭代以在第二個值上運行RDD上的函數。
22. 創建從使用火花的RDD
23. 使用RDD的火花流上下文
24. 有序的火花RDD聯盟
25. 火花RDD容錯的誤區
26. 在星火RDD
27. 星火RDD寫入HBase的
28. RDD到pyspark中的DataFrame（來自rdd的第一個元素的列）
29. 火花rdd如何扁平鍵 - 陣列（值）對
30. 鍵/值對RDD