2016-11-08 43 views
0

理論問題,Impala GROUP BY分區列

可以說我有四列的表:A,B,C,D。 A和D的值相等,表格按列A分區。

表現明智,如果我發出此查詢,它會產生什麼影響 SELECT SUM(B)GROUP BY A; or this one: SELECT SUM(B)GROUP BY D;

換言之,我在問,在分區列上使用GROUP BY會有什麼性能增益嗎?

感謝

回答

0

通常有性能提升,如果您使用的過濾器(WHERE在你的SQL子句)

,因爲這兩個查詢使用「全表掃描」,它不應該有很多的分區列兩個查詢之間的差異。如果這些分區是很多分區(如大約50K),則可能會看到差異,並且往往會降低查詢性能,但通常情況並非如此。