火花：聚集基於列

我具有由3個字段（Emp_ids，團體，工資）火花：聚集基於列

100阿430
101向500
201乙300

的文件

我想作爲結果

1）組名和count（*）

2）組名和max（工資）

val myfile = "/home/hduser/ScalaDemo/Salary.txt" 
val conf = new SparkConf().setAppName("Salary").setMaster("local[2]") 
val sc= new SparkContext(conf) 
val sal= sc.textFile(myfile)

來源

2016-04-26 jeet

斯卡拉DSL：

case class Data(empId: Int, group: String, salary: Int) 
val df = sqlContext.createDataFrame(lst.map {v => 
    val arr = v.split(' ').map(_.trim()) 
    Data(arr(0).toInt, arr(1), arr(2).toInt) 
    }) 
df.show() 
+-----+-----+------+ 
|empId|group|salary| 
+-----+-----+------+ 
| 100| A| 430| 
| 101| A| 500| 
| 201| B| 300| 
+-----+-----+------+ 

df.groupBy($"group").agg(count("*") as "count").show() 
+-----+-----+ 
|group|count| 
+-----+-----+ 
| A| 2| 
| B| 1| 
+-----+-----+ 


df.groupBy($"group").agg(max($"salary") as "maxSalary").show() 
+-----+---------+ 
|group|maxSalary| 
+-----+---------+ 
| A|  500| 
| B|  300| 
+-----+---------+

或用普通的SQL：

df.registerTempTable("salaries") 

sqlContext.sql("select group, count(*) as count from salaries group by group").show() 
+-----+-----+ 
|group|count| 
+-----+-----+ 
| A| 2| 
| B| 1| 
+-----+-----+ 

sqlContext.sql("select group, max(salary) as maxSalary from salaries group by group").show() 
+-----+---------+ 
|group|maxSalary| 
+-----+---------+ 
| A|  500| 
| B|  300| 
+-----+---------+

雖然星火SQL被推薦的方法做這樣的聚合由於性能原因，可以使用RDD API輕鬆完成：

val rdd = sc.parallelize(Seq(Data(100, "A", 430), Data(101, "A", 500), Data(201, "B", 300))) 

rdd.map(v => (v.group, 1)).reduceByKey(_ + _).collect() 
res0: Array[(String, Int)] = Array((B,1), (A,2)) 

rdd.map(v => (v.group, v.salary)).reduceByKey((s1, s2) => if (s1 > s2) s1 else s2).collect() 
res1: Array[(String, Int)] = Array((B,300), (A,500))

來源

2016-04-27 06:28:28

我想在沒有Sql上下文的情況下做到這一點。 – jeet

請檢查我的最新更新請 –

謝謝。如何將Spark SQL作爲批處理文件從命令提示符運行或按照色調進行安排？ – jeet

火花：聚集基於列

回答

相關問題