2016-08-23 17 views
0

當我嘗試執行此聚合時,內存不足。它工作正常,但對一小部分數據非常緩慢。我在pySpark中運行它。是否有其他方法可以根據特定組的平均值進行平均計算?在Spark中執行聚合的最佳方法

df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert") 
+0

這是非常有效的,因爲它得到。在<2.0.0中,您可以通過使用「舊式」調度獲得一點,但就是這樣。如果速度特別慢,則會提出一些配置問題。 – zero323

回答

0

我唯一能想到的其他事情就是id和timestamp的數據結構。確保這兩個不是字符串。嘗試減小類型的大小或更改df的模式。

相關問題