2017-10-16 77 views
0

嘗試使用火花SQL實現以下任務......星火SQL函數計算的repetation

我有一個像

table structure

表中的值,我需要像

輸出
1    1 has repeated for 3,3 has repeated for 3 times..... 
2    2 has repeated for 3,3 has repeated for two times....... 

從我結束我一直在使用ROW1得到相同的ID一起

分組數據
scala> val data=rows.groupBy("row1") 

後我不能夠分裂與2行「」和計數的每個值的出現......

可能有這方面的一個幫助..

回答

1

斯普利特和爆炸:

import org.apache.spark.sql.functions._ 

df.select(col("row1"), explode(split(col("row2"), ",")).alias("row2")) 
    .groupBy("row1", "row2").count