2017-02-09 44 views
0

我必須根據resultdate字段的格式2/5/2013 9:24:00 AM根據日期和小時分區表。如何使用動態分區優化表上的Hive查詢

我使用了日期&小時動態分區和做一個

insert overwrite table partition(date, hour) 
{ 
select x,y,z, date , hour 
} 
from table 1. 

我有大約150萬的記錄,並且它正在約4小時完成。這是正常的,有什麼方法可以優化?

回答

0

增加簇大小,否則將需要很多時間。

0

這是不正常的,但如果你是在一個虛擬機有1個節點工作:) ..嘗試它爲什麼在一些設置爲true默認設置該標誌

set hive.optimize.sort.dynamic.partition=false; 

我不知道發行版。

0

有許多情況下這一點,TEZ引擎

  • 檢查是否可以用來使你的執行時間更好。
  • 我們存儲文件的方式是否可以更改,RC格式可能會有所幫助。
  • 優化hive.exec.max.dynamic.partitions & hive.exec.max.dynamic.partitions爲最佳值。
  • 增加簇也很好(如果可行)