分區列上的Hive/Impala計數不同會導致所有數據文件被讀取？

當根據分區列查詢表蜂房，這將是合乎邏輯的，一個簡單的分區列上的Hive/Impala計數不同會導致所有數據文件被讀取？

select count(distinct partitioned_column_name) from my_partitioned_table

將完成幾乎瞬間。

但我們看到，蜂房和黑斑羚都無法正確執行此查詢：他們只是讀整個表！

我們需要做些什麼來確保上述命令能夠快速執行？

2015-02-24 javadba

正如黑客一樣，如果該列被分區 - 它在倉庫目錄中必然是不同的。

你可以嘗試這樣的：

hadoop fs -ls /<hive_warehouse_directory>/<database.db>/<table_name> | wc -l

通常，蜂巢倉庫保存爲/用戶/蜂巢/倉庫

2015-02-24 10:21:27 Harman

是的，我們都意識到這一點 - 但看明白如何/是否獲得這在SQL中正確解決。 – javadba 2015-02-24 15:24:01

回答