2012-06-21 27 views
2

我正在運行具有M個核心實例和N個任務實例的Amazon EMR集羣。Amazon EMR:爲每個EMR實例設置唯一的映射器和縮減器數量

我的工作每天運行多次,對時間敏感,所以我保持微米的核心情況和運行24/7,使我沒有數據傳送開銷/從S3。

N個任務節點正在發射動態,並根據需要終止。

M個核心節點是c1.mediums和N任務節點m2.xlarge。

是否有配置每個實例mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum的方法嗎?

對於核心節點欲: mapred.tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 1

對於欲至少任務節點: mapred .tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 2

請注意,任務跟蹤器也在覈心節點上運行,所以我認爲此配置將需要在每個 - 實例取決於實例大小。

這可能嗎?如果是的話,我該如何設置這種類型的配置?謝謝。

回答

0

這裏有一個偉大的博客 - 它給你答案。 http://blog.earlh.com/index.php/2013/05/modifying-the-number-of-mappers-or-reducers-on-a-running-emr-cluster/

但請注意,您可能需要花費一點時間才能將sshing放入任務節點。它不會像那樣工作。

我會將我的pem文件放到本地目錄中。

搭配chmod 400對PEM文件

,然後做「SCP -l -i的Hadoop和.PEM隨後的其餘部分是」

如博客 心提到了你我沒有試過這但尚未,但我相信它會奏效。 此外 - .versions ...的東西可能不需要。你可能只需要conf。

謝謝