我有一個下面的要求來聚合斯卡拉Spark數據框上的數據。Spark數據幀數據聚合
我有一個兩列火花數據框。
mo_id sales
201601 11.01
201602 12.01
201603 13.01
201604 14.01
201605 15.01
201606 16.01
201607 17.01
201608 18.01
201609 19.01
201610 20.01
201611 21.01
201612 22.01
如上所示,數據框有兩列'mo_id'和'sales'。 我想添加一個新的列(agg_sales)到應該有銷售總額到當前月份的數據框,如下所示。
mo_id sales agg_sales
201601 10 10
201602 20 30
201603 30 60
201604 40 100
201605 50 150
201606 60 210
201607 70 280
201608 80 360
201609 90 450
201610 100 550
201611 110 660
201612 120 780
說明:
對於一個月201603個agg_sales將會從201601到201603. 銷售的總和爲201604個本月將agg_sales是銷售的總和從201601到201604. 等。
任何人都可以請幫助做到這一點。
版本使用:星火1.6.2和Scala 2.10
你的意思是'銷售'被格式化爲第一個數據集還是第二個? –
我有兩列第一個數據幀。 – Ramesh
因此,在下一個數據框中,我想添加一個新列(agg_sales)。 – Ramesh