在Spark中執行聚合的最佳方法

當我嘗試執行此聚合時，內存不足。它工作正常，但對一小部分數據非常緩慢。我在pySpark中運行它。是否有其他方法可以根據特定組的平均值進行平均計算？在Spark中執行聚合的最佳方法

df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")

2016-08-23 Amber

這是非常有效的，因爲它得到。在<2.0.0中，您可以通過使用「舊式」調度獲得一點，但就是這樣。如果速度特別慢，則會提出一些配置問題。 – zero323

我唯一能想到的其他事情就是id和timestamp的數據結構。確保這兩個不是字符串。嘗試減小類型的大小或更改df的模式。

2016-08-24 03:34:27

回答