瞭解PySpark中的Apache Pig的GROUP A ALL

2016-05-14 34 views 0 likes

我還在學習大數據工具和機器學習。所以，我有一個使用PIG拉丁文的例子，它載入一個CSV文件並進行一些分組和分析。瞭解PySpark中的Apache Pig的GROUP A ALL

Y = LOAD '...' 
Y_all = GROUP Y_good ALL; 
Umax = FOREACH Y_all GENERATE MAX(Y_all.columnA); 
DUMP Umax

這獲得了columnA的最大值。現在我試圖在PySpark中做同樣的事情。但首先，我不明白GROUP ALL命令。我雖然使用flatMap和reduceByKey。

任何幫助表示讚賞。必須有一些方法以非常簡單的方式獲得最大價值。感覺像我的頭只是空的。

2016-05-14 Matthias

回答

這是我找到的一個解決方案。

from pyspark.sql.functions import max 
Y_all.select([max(Y_all.columnA)]).show()

但是有沒有辦法用flatMap/Map和reduceByKey實現這一點？

2016-05-14 09:18:55 Matthias

相關問題