0
我的問題與PySpark reduceByKey on multiple values類似,但有一點關鍵的區別。我是PySpark的新手,所以我肯定錯過了一些明顯的東西。Pyspark在嵌套元組上reduceByKey
我有以下結構的RDD:
(K0, ((k01,v01), (k02,v02), ...))
....
(Kn, ((kn1,vn1), (kn2,vn2), ...))
我想作爲一個輸出是一樣的東西
(K0, v01+v02+...)
...
(Kn, vn1+vn2+...)
這似乎像是一個完美的情況下使用reduceByKey
,起初我還以爲類似的東西
rdd.reduceByKey(lambda x,y: x[1]+y[1])
這給了我完全RDD我開始用。我想我的索引有問題,因爲有嵌套元組,但我嘗試了所有可能的索引組合,我一直在想,並且一直給我回初始的RDD。
是否有理由不應該使用嵌套元組或者我做錯了什麼?
那現在我很清楚。是的,鍵是唯一的,所以mapValues方法就是我所需要的。非常感謝你。 –