0
我有一個數據集如下在Apache Spark中查找列中的唯一元素
Id |興趣
1 |騎馬,閱讀,烹飪
2 |騎行,跑步
3 |旅遊,烹飪
是否有可能獲取利益的總結一樣
騎,2
閱讀,1個
烹飪,2
運行,1
旅遊,1
我有一個數據集如下在Apache Spark中查找列中的唯一元素
Id |興趣
1 |騎馬,閱讀,烹飪
2 |騎行,跑步
3 |旅遊,烹飪
是否有可能獲取利益的總結一樣
騎,2
閱讀,1個
烹飪,2
運行,1
旅遊,1
請嘗試下面。
val firstRDD = sc.textFile("/path_to_file/file.txt").map(line =>line.split("\\|")(1))
val resultRDD=firstRDD.flatMap(line => line.split(",")).map(word => (word,1)).reduceByKey(_+_)
resultRDD.collect
這裏是從階輸出殼
res23: Array[(String, Int)] = Array((reading,1), (cooking,2), (travelling,1), (running,1), (riding,2))