我有一個pyspark數據框,其中一些列包含字符串數組(並且一列包含嵌套數組)。因此,我無法將數據框寫入csv。將數組<string>轉換爲字符串pyspark數據框
這裏是我處理的數據幀的一個例子 -
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|[KBR, NRT, AOR] |[[AOR]]
|9000854|[KBR, NRT, LAX] | Null
|9001996|[KBR, JFK] |[[JFK]]
+-------+--------------------+---------+
我想獲得以下結構,保存爲一個CSV文件。
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|KBR, NRT, AOR | AOR
|9000854|KBR, NRT, LAX | Null
|9001996|KBR, JFK | JFK
+-------+--------------------+---------+
我是非常新的pyspark。非常感謝您的幫助。謝謝!
「clicked」列是否總是有這種格式 - [[value]]或可以是[[val1,val2 ...]]'? –