2016-11-15 30 views
1

我也有類似如下表組行到一個列表中pyspark

**col1** **col2** 

    A  1 
    B  2 
    A  3 
    B  4 
    C  1 
    A  2 

我希望它是在col1分組並創建COL2值的列表,以結構的火花數據幀。以下應該是我的輸出

**col1** **list** 
    A  [1,3,2] 
    B  [2, 4] 
    C   [1] 

有人可以指向我的任何引用嗎?

回答

1

這應該做的工作:

df.groupBy($"col1").agg(collect_list($"col2")) 
相關問題