1
case class Step (Id : Long,
stepNum : Long,
stepId : Int,
stepTime: java.sql.Timestamp
)
我有一個數據集[步驟],我想對「Id」列執行groupBy操作。 我的輸出應該看起來像Dataset [(Long,List [Step])]]。我該怎麼做呢?Spark GroupBy聚合函數
可以說變量 「inquiryStepMap」 是一個類型的數據集[步驟]然後,我們可以按照如下
val inquiryStepGrouped: RDD[(Long, Iterable[Step])] = inquiryStepMap.rdd.groupBy(x => x.Id)