我正在使用AWS EMR運行映射縮減作業。我的輸入集包含100萬個大約15KB的文件。由於輸入文件非常小,所以這將導致大量的映射器。因此,我將s3塊大小更改爲20KB,並使用了5個r3.2xlarge實例,但運行的併發任務數量仍然只有30個。不應該在減少塊大小或減小塊大小後立即運行更多併發映射器,每個映射器採用的內存仍然相同?MapReduce:增加併發映射器任務的數量
我怎麼能限制每個映射器的內存使用量或增加的同時映射任務的數量?目前預計的完成時間爲100小時,將這些文件組合到較少數量的較大文件中,如400MB文件,是否會增加處理時間?