4
所以我有一個火花數據框,看起來像:GroupByKey和創造價值的名單pyspark SQL數據幀
a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7
我想組由列,創建列B值的列表,忘記c。輸出數據框應該是:
a | b_list
5 | (2,4)
2 | (4,3)
我該如何去做這與一個pyspark sql數據框?
謝謝! :)
正是我所需要的!謝謝。你能建議一些資源來改善嗎? – user2253546
我沒有得到關於資源的問題。如果它解決了你的問題,請接受答案,以便對其他人有幫助。謝謝。 – abaghel
@ user2253546你可以閱讀文檔。這裏是https://spark.apache.org/docs/1.6.2/api/java/org/apache/spark/sql/functions.html,很多有用的SQL函數。 –