我有多個文件,通過單個文件使用蜂巢union all
,現在union all
查詢加入超過10個蜂巢表,並且非常緩慢。每個個人union all
查詢也有一個或多個連接條件。還需要配置單元性能聯盟全部
我的預期最終結果以由主鍵進行分組,e.g:
table 1
key1|val1|val2|..
table 2
key1|val10|val11|..
insert overwrite <temptable>
select key, output_string from
(select key, concat (col1,col2,..) from table 1 where <join conditions>
union all
select key, concat(col10,col11,..) from table 2 where <join conditions>
..
)
cluster by key;
union all
將結合以上兩個表中,我使用簇通過鍵,以產生期望的結果。蜂巢的表現非常緩慢,其他的選擇是什麼?
我看@ veeraB的答案,看起來很權威。我想問的第一個問題是每個單獨查詢需要多長時間 - 任何長時間運行的查詢都會影響整個「工會」鏈。接下來的問題是,Hive可以以這樣的方式解析查詢:並行運行每個查詢,這可以通過'EXPLAIN'或者只是在執行時觀察;如果不是,'hive.optimize.union.remove'設置可能是一個選項。 –