2017-10-12 64 views
1

這是我們組中的一個普遍問題,我們的Hive查詢經常會擴展,以佔用我們CDH羣集上大多數可用的YARN執行程序和內存。雖然底層問題出在我們表格的分區數量和連接的複雜性上,但我們不能自由地重建這些表格。我們可以通過配置spark.dynamicAllocation.maxExecutors和spark.executor.memory來控制Spark中的資源消耗。我們可以在Hue上使用類似的東西,這樣Hue能夠與羣集上的其他作業「發揮出色」嗎?是否有Hive on Hue(CDH 5.9.3)的配置設置限制可以使用的容器數量?

回答

0

是的,你可以更好地管理的Hadoop集羣的計算資源量從Hue -launched Hive查詢使用。

爲了做到這一點,您需要先配置YARN調度程序隊列;對於Cloudera的CDH分佈,這些被稱爲動態資源池

您可以瞭解更多有關此主題的CDH Documentation

一旦配置供您色相推出,半互動,蜂巢查詢池內,可以通過爲mapred.job.queue.name密鑰的值傳遞資源池名稱來指示Hive通過此池訪問單個查詢。

假設我們的隊列名稱爲interactive.hive_queue。我們HiveQL查詢語句之前,我們會在前面加上這個SET聲明:

SET mapred.job.queue.name=interactive.hive_queue; 

您可能需要更新您的順化配置hue.ini,以允許通過您的色相的用戶通過這個配置值

參考:HiveQL Language Manual

您還應該能夠爲Hue創建一個已保存的Hive配置,以便始終爲您的Hue啓動的Hive查詢使用此YARN隊列。

參考:hiveserver2.py

(假設您正在使用的MapReduce(MR2)執行引擎爲您的蜂巢查詢)

如果你想改變你所有的蜂巢查詢的隊列中,你可以做這通過更改Hive Server2配置hive-site.xml。這種變化看起來像:

<property> 
    <name>mapreduce.job.queuename</name> 
    <value>interactive.hive_queue</value> 
</property> 
相關問題