在Apache Spark中查找列中的唯一元素

Id |興趣
1 |騎馬，閱讀，烹飪
2 |騎行，跑步
3 |旅遊，烹飪

是否有可能獲取利益的總結一樣

騎，2
閱讀，1個
烹飪，2
運行，1
旅遊，1

2016-10-02 Newb101

請嘗試下面。

val firstRDD = sc.textFile("/path_to_file/file.txt").map(line =>line.split("\\|")(1)) 

val resultRDD=firstRDD.flatMap(line => line.split(",")).map(word => (word,1)).reduceByKey(_+_) 

resultRDD.collect

這裏是從階輸出殼

res23: Array[(String, Int)] = Array((reading,1), (cooking,2), (travelling,1), (running,1), (riding,2))

來源

2016-10-03 01:09:10

在Apache Spark中查找列中的唯一元素

回答

相關問題