0
假設我有以下數據集:Pyspark ---通過增加每組值的新列
a | b
1 | 0.4
1 | 0.8
1 | 0.5
2 | 0.4
2 | 0.1
我想添加一個名爲「標籤」的新的列,其中值對每個本地確定a中的一組值。的一組中的最高值B一個標記爲1,其他的都標有0
輸出應該是這樣的:
a | b | label
1 | 0.4 | 0
1 | 0.8 | 1
1 | 0.5 | 0
2 | 0.4 | 1
2 | 0.1 | 0
我怎樣才能做到這一點有效地利用PySpark?