0
假設您有一個包含一些空值的Spark數據框,並且您希望將一列的值替換爲另一列的值(如果存在)。在python /大熊貓可以使用fillna()函數來做到這一點相當不錯:Spark:用另一列中的值替換缺失值
df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3'])
DF = df.toPandas()
DF['c1'].fillna(DF['c2']).fillna(DF['c3'])
怎麼可以這樣使用Pyspark做?
優秀。值得注意的是可以傳遞多個列來填充值 'cDf.select(coalesce(cDf [「a」],cDf [「b」],lit(0)))。show()' – evilpilotfish