2017-08-11 80 views
1

我實際上對於pyspark是新手,我正在嘗試使用它進行一些數據操作。 我有一個數據幀像下面的例子:在pyspark進行算術運算後添加列

Trxn Cust_ID Group 
3370 A  1 
8809 C  2 
3525 B  3 
8260 A  3 
6349 B  3 
3359 C  3 
3701 NULL 3 
5572 NULL 2 
2580 A  1 

在這個DF,TRXN的是獨特的和cust_id的可重複性和每一個cust_id屬於某個組。我需要一個最終數據框和新的組列名稱,如array(Group_1, Group_2.. so on),其中我確實有屬於每個組的cust_id。以下是輸出示例:

Trxn Cust_ID Group Group_1 Group_2 Group_3 
3370 A  1  2  0  1 
8809 C  2  0  1  1 
3525 B  3  0  0  2 
8260 A  3  2  0  1 
6349 B  3  0  0  2 
3359 C  3  0  1  1 
3701 NULL 3  0  1  1 
5572 NULL 2  0  1  1 
2580 A  1  2  0  1 

有人可以讓我知道如何在pyspark中獲得此確切輸出嗎?任何幫助或提示將不勝感激。

回答