我正在使用Spark 2.0來分析數據集。一列包含這樣的字符串數據:從Spark 2.0中的逗號分隔字符串中獲取不同的項目
A,C
A,B
A
B
B,C
我希望得到一個JavaRDD與出現在列所有不同的項目,這樣的事情:
A
B
C
這怎麼可能有效地火花完成?我在Java中使用Spark,但Scala示例或指針會很有用。
編輯: 我試過使用flatMap,但是我的實現非常慢。
JavaRDD<String> d = dataset.flatMap(s -> Arrays.asList(s.split(",")).iterator())