在pyspark,考慮兩個RDDS,如:合併兩個RDD密鑰是不一樣的,但相關的
rrd1 = [('my name',5),('name is',4)]
和
rdd2 = [('my',6),('name',10),('is',5)]
其中RDD1集是二元語法的元組和計數,rdd2是相應的單元和元組的元組, 我想要有一個3元素元組的RDD,例如:
RDD = [ (('my name',5),('my',6),('name',10)) , (('name is',4), ('name',10),('is',5)) ]
我試圖rdd2.union(rdd1).reduceByKey(lambda x,y : x+y)
但在這種情況下,它是不是在某種意義上它們是相關的正確方法,因爲鍵是不同的,但。
您是否使用Python或Scala呢?你標記了python,但你的代碼是scala? – Psidom
我正在使用python,這些示例只是以元組列表的形式顯示rdd。我不知道scala! – Elm662