0
我使用Apache的火花在斯卡拉在數據幀上運行多個列聚合例如阿帕奇星火多個聚合
select column1, sum(1) as count from df group by column1
select column2, sum(1) as count from df group by column2
實際的聚合不僅僅是總和(1)更復雜,但它除了點。 查詢字符串如上述示例被編譯爲每個我想聚集,我通過火花SQL上下文執行每個字符串創建表示所討論
我的問題的性質的聚合的相應數據幀的可變是我必須爲數千個變量執行此操作。
我的理解是Spark每次執行聚合時都必須「讀」主數據框。
有沒有其他方法可以更有效地做到這一點?
感謝您閱讀我的問題,並提前感謝您的幫助。
您是否考慮緩存? – eliasah