2016-03-29 20 views
1

你好我是新的火花.. 我有一個形式爲(K1,K2,Row(val1)) (K1,K2,Row(val2))的RDD,其中K1和K2一起構成​​。我想結合它在K1和K2 ..Pyspark或Spark中的多個按鍵組合

(K1,K2,Row(val1,val2))任何人都可以建議一種方式我一直在尋找這個,但沒有得到任何有用的東西。

感謝您

+0

你要基於這些按鍵做什麼操作? –

回答

1

地圖數據的格式((K1, K2), V)並把它作爲任何其他PairRDD

rdd 
    .map(lambda ksv: ((ksv[0], ksv[1]), ksv[2])) 
    .reduceByKey(...) # Or other method you want to use