我有星火Scala的一個問題,我想指望從個R dd數據平均,我創建了一個新的RDD這樣,如何計算Spark RDD的平均值?
[(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]
我想指望他們這樣,
[(2,(110+130+120)/3),(3,(200+206+206)/3),(4,(150+160+170)/3)]
那麼,得到這樣的結果,
[(2,120),(3,204),(4,160)]
我該怎麼用RDD的scala做這件事? 我用火花版本1.6
感謝alexgids,Akash Sethi,vdep。三種方法都可以使用。謝謝! – lee