0
我還在學習大數據工具和機器學習。所以,我有一個使用PIG拉丁文的例子,它載入一個CSV文件並進行一些分組和分析。瞭解PySpark中的Apache Pig的GROUP A ALL
Y = LOAD '...'
Y_all = GROUP Y_good ALL;
Umax = FOREACH Y_all GENERATE MAX(Y_all.columnA);
DUMP Umax
這獲得了columnA的最大值。現在我試圖在PySpark中做同樣的事情。但首先,我不明白GROUP ALL命令。我雖然使用flatMap和reduceByKey。
任何幫助表示讚賞。必須有一些方法以非常簡單的方式獲得最大價值。感覺像我的頭只是空的。