我有一個火花數據幀是這樣的:如何扁平pySpark數據框?
id | Operation | Value |
--------------------------
1 | Date_Min | 148590 |
1 | Date_Max | 148590 |
1 | Device | iphone |
2 | Date_Min | 148590 |
2 | Date_Max | 148590 |
2 | Review | Good |
3 | Date_Min | 148590 |
3 | Date_Max | 148590 |
3 | Review | Bad |
3 | Review | samsung|
我使用的Spark 2.1.0與pyspark:
id | Operation | Value
-----------------------------------------------------------
1 | [Date_Min, Date_Max, Device] | [148590, 148590, iphone]
2 | [Date_Min, Date_Max, Review] | [148590, 148590, Good]
3 | [Date_Min, Date_Max, Review, Device] | [148590, 148590, Bad,samsung]
,我期待resul。我試過這個solution,但它只適用於一列。
感謝
我仍然無法找出好辦法做到這一點特定任務。我試圖分開展開列'df1 = df.select('id',explode(col(「Operation」)))', 'df2 = df.select('id',explode(col(「Value」)) )'。但是,如何將兩個數據框水平地堆疊在一起沒有很好的解決方案。 – titipata