讓我們假設,我在Spark中有一個關鍵值對,如下所示。Pyspark(key,value)對與(key,[值列表])
[ (Key1, Value1), (Key1, Value2), (Key1, Vaue3), (Key2, Value4), (Key2, Value5) ]
現在我想減少這種情況,像這樣。
[ (Key1, [Value1, Value2, Value3]), (Key2, [Value4, Value5]) ]
也就是說,從鍵值到鍵值列表。
我該怎麼做,使用地圖和減少python函數?
我相信這是你正在尋找的:https://stackoverflow.com/a/27002657/8160718 –