spark數據集組和由總和

2017-06-21 84 views 2 likes

我使用Spark 1.6.1和Java作爲編程語言。下面的代碼是工作的罰款與dataframes：spark數據集組和由總和

simpleProf.groupBy(col("col1"), col("col2")) 
       .agg(
        sum("CURRENT_MONTH"), 
        sum("PREVIOUS_MONTH") 
       );

但是，它不使用數據集，任何想法如何做同樣在Java數據集/火花？

乾杯

來源

2017-06-21 Edge7

你可以發佈你的代碼不工作嗎？這應該工作，所以這取決於你如何試圖做到這一點。 –

在我的情況下，它也可以。你可以粘貼你的例外？ –

您能否詳細說明_「它不使用數據集」_？你怎麼知道它不能使用數據集？什麼是導致你相信的輸出？ –

回答

-1

這應該工作你的情況。

simpleProf.groupBy(simpleProf.col("col1"), simpleProf.col("col2")) 
      .agg(
       sum(simpleProf.col("CURRENT_MONTH")), 
       sum(simpleProf.col("PREVIOUS_MONTH")) 
    );

或運行SQL查詢

simpleProf.registerTempTable("prof"); 
sqlContext.sql("SELECT sum(CURRENT_MONTH),sum(PREVIOUS_MONTH) FROM prof group by (CURRENT_MONTH, PREVIOUS_MONTH))

來源

2017-06-21 16:31:13