0
我知道RDDs
應該是cache()
,如果它們以後會被多次使用的話。Spark DataFrame多次在同一列上調用函數
但是DataFrame呢?這種情況下
思考:
df = spark.createDataFrame([('1', ['a', 'B']), ('2', ['C', 'd'])], ['idx', 'item'])
res = df.select(df['idx'], *[upper(df['item'][i]) for i in range(2)])
我呼籲df['item']
列upper
兩次。
df
第二次做upper
時再次生成嗎?
我應該致電cache()
df
?