我有一個像下面的DataFrame。如何根據Pyspark中的數據框中的條件設置新的列表值?
+---+------------------------------------------+
|id |features |
+---+------------------------------------------+
|1 |[6.629056, 0.26771536, 0.79063195,0.8923] |
|2 |[1.4850719, 0.66458416, -2.1034079] |
|3 |[3.0975454, 1.571849, 1.9053307] |
|4 |[2.526619, -0.33559006, -1.4565022] |
|5 |[-0.9286196, -0.57326394, 4.481531] |
|6 |[3.594114, 1.3512149, 1.6967168] |
+---+------------------------------------------+
我想設置一些我的功能的價值根據我的地方如下條件。即其中id=1
,id=2
或id=6
。
我想設置新功能值,其中id=1
,我目前的功能值是[6.629056, 0.26771536, 0.79063195,0.8923]
,但我想設置[0,0,0,0]
。
我想設置新的功能值,其中id=2
,我目前的功能值是[1.4850719, 0.66458416, -2.1034079]
,但我想設置[0,0,0]
。
我最後出來放將是:
+------+-----------------------------------+
|id | features |
+-----+---------------------------------- -+
|1 | [0, 0, 0, 0] |
|2 | [0,0,0] |
|3 | [3.0975454, 1.571849, 1.9053307] |
|4 | [2.526619, -0.33559006, -1.4565022] |
|5 | [-0.9286196, -0.57326394, 4.481531] |
|6 | [0,0,0] |
+-----+------------------------------------+
我覺得OP想要pyspark代碼 – mtoto
嗨Philantrovert,感謝您的快速回復,但我期待在python –
答案我的不好。我沒有正確地閱讀這個問題。現在更新。 – philantrovert