有幾個地方說Hadoop作業中默認的reducer數是1.您可以使用mapred.reduce.tasks來手動設置reducer的數量。Hive如何選擇一個工作減少的人數?
當我運行一個蜂房的工作(在Amazon EMR,AMI 2.3.3),它具有減速大於一的一些數字。看看作業設置,有些東西已經設置了mapred.reduce.tasks,我認爲Hive。它如何選擇這個數字?
注:這裏有一些消息運行一個蜂房的工作,應該是一個線索,而:
...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
...
好問題。具體而言,何時配置單元選擇「編譯時確定的減少任務數量」以及何時選擇「根據輸入數據大小估計」? – ihadanny 2013-04-25 14:39:08
補充說,在下面的回答中, – 2013-04-26 01:14:54