0
我有一個Spark DataFrame,我試圖根據以前的列創建一個新的列,但是對我而言,困難的部分是我已經按行計算了列的值。例如:在PySpark中添加基於行的操作的列
COL1 | COL2 | COL3
1 | 2 | 3
4 | 5 | 0
3 | 1 | 1
所以,我想其中有每行表達
MAX(COL1,COL2,COL3)的列名新列。因此,所需的輸出:
COL1 | COL2 | COL3 | COL4
1 | 2 | 3 | 'col3'
4 | 5 | 0 | 'col2'
3 | 1 | 1 | 'col1'
無論如何,它有可能在PySpark中做?
對於您發佈的數據,您希望的輸出是什麼樣的? –
我已更新問題以反映所需的輸出。 – Hemant
如果有領帶怎麼辦?如果兩個數字是相同的呢? –