1
我有一個包含密集向量的DataFrame列。我想一個這些矢量的最大值設置爲1且取代所有其餘爲0。 例如:找到一個密集向量的最大值將其設置爲1,其餘所有設置爲0 [pyspark]
+------+-------------+
| Col1| vector|
+------+-------------+
|Modali|[1.0,2.0,3.0]|
|assert|[4.0,9.0,3.0]|
+------+-------------+
我想將其變爲:
+------+-------------+
| Col1| vector|
+------+-------------+
|Modali|[0.0,0.0,1.0]|
|assert|[0.0,1.0,0.0]|
+------+-------------+
注意我正在使用python開發Spark 2.1.0。 非常感謝你提前。
這工作,非常感謝 – abdelkarim