我有一個配置單元效率問題。我有2個需要過濾的大量查詢,加入了映射表並聯合。兩個表的所有連接都是相同的。在將聯接應用到組合表之前將它們聯合起來,或者將聯接應用到每個大規模查詢然後聯合結果,會更有效率嗎?這有什麼不同嗎?Hive union所有效率和最佳實踐
我試過第二種方式,查詢在我殺死它之前跑了24小時。我覺得我盡我所能去優化它,除了可能重新安排工會聲明。一方面,我覺得應該不重要,因爲由映射表連接的數字或行是相同的,並且由於一切都是齶式的,所以它應該花費大致相同的時間量。另一方面,也許通過先做聯合,它應該保證在運行聯接之前給兩個大的查詢賦予完整的系統資源。然後再說一次,這可能意味着一次只有2個作業正在運行,所以系統沒有被完全使用或者什麼東西。
我根本不知道蜂房和多線程是如何工作的。任何人有任何想法?
提摩太,投票結束(太廣泛)。如果您需要優化助手,請添加查詢,執行計劃和表格統計信息(開始) –