0
我有要事(T1,K1,V1),(T2,K2,V3),(T3,K1,V2),(T4,K2,V4),(T5,K1,V5)
鍵和值都是字符串的時間順序阿帕奇星火 - 減少步驟輸出(K,(V1,V2,V3,...)
我試圖實現。以下使用星火
K1,(V1,V2,V5)
K2,(V3,V4)
這是我試過
val inputFile = args(0)
val outputFile = args(1)
val conf = new SparkConf().setAppName("MyApp")
val sc = new SparkContext(conf)
val rdd1 = sc.textFile(inputFile, 2).cache()
val rdd2= rdd1.map {
line =>
val fields = line.split(" ")
val key = fields(1)
val v = fields(2)
(key, v)
}
// TODO : rdd2.reduce to get the output I want
rdd2.saveAsTextFile(outputFile)
可能有人請點我朝着如何讓減速機生產我想要的輸出?許多感謝提前。
您可以參考文檔,在部分('groupByKey','aggregateByKey')。 http://spark.apache.org/docs/latest/programming-guide.html – 2014-10-02 03:40:23