2016-05-14 34 views
0

我還在學習大數據工具和機器學習。所以,我有一個使用PIG拉丁文的例子,它載入一個CSV文件並進行一些分組和分析。瞭解PySpark中的Apache Pig的GROUP A ALL

Y = LOAD '...' 
Y_all = GROUP Y_good ALL; 
Umax = FOREACH Y_all GENERATE MAX(Y_all.columnA); 
DUMP Umax 

這獲得了columnA的最大值。現在我試圖在PySpark中做同樣的事情。但首先,我不明白GROUP ALL命令。我雖然使用flatMap和reduceByKey。

任何幫助表示讚賞。必須有一些方法以非常簡單的方式獲得最大價值。感覺像我的頭只是空的。

回答

0

這是我找到的一個解決方案。

from pyspark.sql.functions import max 
Y_all.select([max(Y_all.columnA)]).show() 

但是有沒有辦法用flatMap/Map和reduceByKey實現這一點?