-1
我是Spark的新手,我仍然試圖圍繞它的一些概念進行思考。 所以,我有一個鍵值元組列表,其中鍵和值都是元組。Python Spark reduceByKey不適用於單個元素
val = [
((18, 13), (1, 1193, **5, 1**)),
((18, 13), (1, 661, **3, 1**)),
((9, 15), (1, 914, **3, 1**))
]
在值元組中,我對最後兩個元素感興趣(用粗體表示)。
我希望執行以下操作:5 + 3和1 + 1,因爲它們的元組共享一個公共密鑰(18,13),而最後一個元組的值爲3和1應該保持不變。 要做到這一點,我做了以下內容:
parsed_data = sc.parallelize(val)
result = parsed_data.reduceByKey(lambda x,y: (x[2]+y[2], x[3]+y[3]))
應用這些reduceByKey後,我已經得到了以下結果:
[((18, 13), (8, 2)), ((9, 15), (1, 914, 3, 1))]
的reduceByKey功能沒有被應用到最後的元組,因爲它沒有一對減少。現在我想明白,我怎麼能反正應用reducebyKey,得到以下的輸出:
[((18, 13), (8, 2)), ((9, 15), (3, 1))]