在pyspark進行算術運算後添加列

我實際上對於pyspark是新手，我正在嘗試使用它進行一些數據操作。我有一個數據幀像下面的例子：在pyspark進行算術運算後添加列

Trxn Cust_ID Group 
3370 A  1 
8809 C  2 
3525 B  3 
8260 A  3 
6349 B  3 
3359 C  3 
3701 NULL 3 
5572 NULL 2 
2580 A  1

在這個DF，TRXN的是獨特的和cust_id的可重複性和每一個cust_id屬於某個組。我需要一個最終數據框和新的組列名稱，如array(Group_1, Group_2.. so on)，其中我確實有屬於每個組的cust_id。以下是輸出示例：

Trxn Cust_ID Group Group_1 Group_2 Group_3 
3370 A  1  2  0  1 
8809 C  2  0  1  1 
3525 B  3  0  0  2 
8260 A  3  2  0  1 
6349 B  3  0  0  2 
3359 C  3  0  1  1 
3701 NULL 3  0  1  1 
5572 NULL 2  0  1  1 
2580 A  1  2  0  1

有人可以讓我知道如何在pyspark中獲得此確切輸出嗎？任何幫助或提示將不勝感激。

來源

2017-08-11 Anupam Das

在pyspark進行算術運算後添加列

回答

相關問題