1
我實際上對於pyspark是新手,我正在嘗試使用它進行一些數據操作。 我有一個數據幀像下面的例子:在pyspark進行算術運算後添加列
Trxn Cust_ID Group
3370 A 1
8809 C 2
3525 B 3
8260 A 3
6349 B 3
3359 C 3
3701 NULL 3
5572 NULL 2
2580 A 1
在這個DF,TRXN的是獨特的和cust_id
的可重複性和每一個cust_id
屬於某個組。我需要一個最終數據框和新的組列名稱,如array(Group_1, Group_2.. so on)
,其中我確實有屬於每個組的cust_id
。以下是輸出示例:
Trxn Cust_ID Group Group_1 Group_2 Group_3
3370 A 1 2 0 1
8809 C 2 0 1 1
3525 B 3 0 0 2
8260 A 3 2 0 1
6349 B 3 0 0 2
3359 C 3 0 1 1
3701 NULL 3 0 1 1
5572 NULL 2 0 1 1
2580 A 1 2 0 1
有人可以讓我知道如何在pyspark中獲得此確切輸出嗎?任何幫助或提示將不勝感激。