我有一個名爲df的pyspark數據框。根據另一列的值更改pyspark列
ONE LINE EXAMPLE:
df.take(1)
[Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")]
我有假期一天的清單:
holydays=[u'2016-12-25',u'2016-12-08'....]
我想改用day_type爲「HOLIDAY」如果「數據」是holydays列表,否則我要離開day_type領域,因爲它是。
這是我的非工作暫定:
df=df.withColumn("day_type",when(col("data") in holydays, "HOLIDAY").otherwise(col("day_type")))
PySpark不喜歡 「在holydays」 的表述。 它返回此錯誤:
ValueError: Cannot convert column into bool: please use '&' for 'and', '|'