0
當根據分區列查詢表蜂房,這將是合乎邏輯的,一個簡單的分區列上的Hive/Impala計數不同會導致所有數據文件被讀取?
select count(distinct partitioned_column_name) from my_partitioned_table
將完成幾乎瞬間。
但我們看到,蜂房和黑斑羚都無法正確執行此查詢:他們只是讀整個表!
我們需要做些什麼來確保上述命令能夠快速執行?
當根據分區列查詢表蜂房,這將是合乎邏輯的,一個簡單的分區列上的Hive/Impala計數不同會導致所有數據文件被讀取?
select count(distinct partitioned_column_name) from my_partitioned_table
將完成幾乎瞬間。
但我們看到,蜂房和黑斑羚都無法正確執行此查詢:他們只是讀整個表!
我們需要做些什麼來確保上述命令能夠快速執行?
正如黑客一樣,如果該列被分區 - 它在倉庫目錄中必然是不同的。
你可以嘗試這樣的:
hadoop fs -ls /<hive_warehouse_directory>/<database.db>/<table_name> | wc -l
通常,蜂巢倉庫保存爲/用戶/蜂巢/倉庫
是的,我們都意識到這一點 - 但看明白如何/是否獲得這在SQL中正確解決。 – javadba 2015-02-24 15:24:01