6
對於通過pyspark的Spark數據幀,我們可以使用pyspark.sql.functions.udf
創建user defined function (UDF)
。Python數據包的函數,用於udf()Spark數據幀
我在想我是否可以使用Python包中的任何函數udf()
,例如numpy的np.random.normal
?
對於通過pyspark的Spark數據幀,我們可以使用pyspark.sql.functions.udf
創建user defined function (UDF)
。Python數據包的函數,用於udf()Spark數據幀
我在想我是否可以使用Python包中的任何函數udf()
,例如numpy的np.random.normal
?
假設你想添加一個名爲new
通過調用numpy.random.normal
反覆構建了您的數據幀df
欄,你可以這樣做:
import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType
udf = UserDefinedFunction(numpy.random.normal, DoubleType())
df_with_new_column = df.withColumn('new', udf())