從我所看到的,爲了做到這一點,你必須如何註冊UDF以在SQL和DataFrame中使用?
- 使
udf
作爲一個純函數 與
SQLContext
註冊功能SQLspark.sqlContext.udf.register("myUDF", myFunc)
反過來,這變爲
UserDefinedFunction
forDataFrame
def myUDF = udf(myFunc)
有沒有辦法將這一步合併爲一步,並使udf
可用於兩個?另外,對於存在DataFrame
但不適用於SQL的情況,如何在不復制代碼的情況下注冊它?