我必須根據resultdate
字段的格式2/5/2013 9:24:00 AM
根據日期和小時分區表。如何使用動態分區優化表上的Hive查詢
我使用了日期&小時動態分區和做一個
insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.
我有大約150萬的記錄,並且它正在約4小時完成。這是正常的,有什麼方法可以優化?
我必須根據resultdate
字段的格式2/5/2013 9:24:00 AM
根據日期和小時分區表。如何使用動態分區優化表上的Hive查詢
我使用了日期&小時動態分區和做一個
insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.
我有大約150萬的記錄,並且它正在約4小時完成。這是正常的,有什麼方法可以優化?
增加簇大小,否則將需要很多時間。
這是不正常的,但如果你是在一個虛擬機有1個節點工作:) ..嘗試它爲什麼在一些設置爲true默認設置該標誌
set hive.optimize.sort.dynamic.partition=false;
我不知道發行版。
有許多情況下這一點,TEZ引擎