我有一個包含類似下面的數據的數據集:GroupByKey在星火2.0數據集使用Java
|c1| c2|
---------
| 1 | a |
| 1 | b |
| 1 | c |
| 2 | a |
| 2 | b |
...
現在,我想分組像下面(COL1數據:字符串鍵,COL2:列表):
| c1| c2 |
-----------
| 1 |a,b,c|
| 2 | a, b|
...
我想到用goupByKey將是一個足夠的解決方案,但我找不到任何例子,如何使用它。
任何人都可以幫助我找到一個解決方案,使用groupByKey或使用任何其他組合的轉換和行動來獲得這個輸出通過使用數據集,而不是RDD?
很高興我能幫忙。 – abaghel
謝謝,它的作品! –