5
我正在改進表的性能。Impala是否在Hive Bucketed表中有效使用了桶?
說這個表:
CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(Year int, month int)
STORED AS PARQUET;
我打算通過USER_ID申請鏟裝,因爲查詢通常涉及user_id說明的條款。
這樣
CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(Year int, month int)
CLUSTERED BY(user_id) INTO 256 BUCKETS
STORED AS PARQUET;
此表將被創建並加載配置單元,從黑斑羚查詢...
我想知道的是,無論是瓢潑大雨此表將提高的性能是什麼黑斑羚查詢 - 我不確定黑斑羚怎樣與桶一起工作。
事實上,沒有提到存儲桶的Impala文檔表明它沒有對此有任何特殊處理。 http://www.slideshare.net/cloudera/cloudera-impala-a-modern-sql-engine-for-hadoop(幻燈片6)也提到了這一點。我無法在[Impala JIRA](https://issues.cloudera.org/browse/IMPALA)中找到與此相關的任何問題,所以我很樂意看到明確的答案。 – Nickolay
感謝@Nickolay的信息,它似乎impala不認爲水桶,因爲你分享的幻燈片...(看到我的答案) –
感謝您的測試結果ping我! – Nickolay