我有5列要添加到數據框中。 (A - E)這些列的值存儲在(a - e)變量中。如何創建一個Pyspark UDF用於將新列添加到數據框中
而不是使用
df.withColumn("A", a).withColumn("B", b).withColumn..... etc
的,我們能做到這一點有一個UDF?
目前我點名功能:
def add_col(df_name,newCol,value):
df = df_name
df = df.withColumn(newCol, value)
return df
但我無法理解如何將其轉換爲UDF並使用它。請幫忙。
的UDF不能產生超過1列...但你可以返回一個複雜的列(數組或結構類型)。但顯然你正在使用常量(字面值),所以我沒有看到使用UDF –