我有由鍵和值列表組成的數據。 RDD =(鍵,[超值])Spark:如何在map(python)中生成多個元素?
什麼,我想要的是:
rdd.map(lambda pair: func(pair))
其中函數返回若干(價值NEW_VALUE)的一對。請注意,New_value也取決於Key!
所以,簡單地說,在
(key1, [Value1, Value2])
(key2, [Value3, Value4, Value5])
使用.map()
後,我想收到:
(Value1, NewValue1)
(Value2, NewValue2)
(Value3, NewValue3)
(Value4, NewValue4)
(Value5, NewValue5)
我怎樣才能使它在PySpark?
使用列表解析代替@ cricket_007溶液,如'[FUNC(一對),用於對RDD]' – Natecat