在apache spark中,可以使用sparkContext.union()
方法高效地合併多個RDD。如果有人想要交叉多個RDD,有沒有類似的東西?我已經在sparkContext方法中搜索過,並且找不到任何東西或其他地方。一種解決方案可能是聯合rdds然後檢索重複項,但我認爲它不會那麼高效。假設我有一個鍵/值對集合下面的例子:Apache Spark - 多個RDD的交集
val rdd1 = sc.parallelize(Seq((1,1.0),(2,1.0)))
val rdd2 = sc.parallelize(Seq((1,2.0),(3,4.0),(3,1.0)))
我想找回一個新的集合,其具有以下元素:
(1,2.0) (1,1.0)
但當然多RDDS,而不是隻有兩個。
你爲什麼要交叉多個rdds?並基於什麼? – Shankar
我想現在我的問題更好地理解。 –