我必須使用RDD這樣做的請求:如何使用數據集GROUPBY
val test = Seq(("New York", "Jack"),
("Los Angeles", "Tom"),
("Chicago", "David"),
("Houston", "John"),
("Detroit", "Michael"),
("Chicago", "Andrew"),
("Detroit", "Peter"),
("Detroit", "George")
)
sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println)
結果是:
(紐約,列表(傑克))
(底特律,列表(邁克爾·彼得,喬治))
(洛杉磯,列表(湯姆))
(休斯頓,列表(約翰))
(芝加哥,列表(大衛,安德魯))
如何做到這一點使用數據集spark2.0?
我有辦法使用自定義功能,但感覺是如此複雜,有沒有簡單一點的方法
'testDs.columns'甚至可以更快地得到沒有類型的列名(作爲'Array [String]')。 – Garren
好點!真 –