2012-09-29 58 views
8

我讀過很多關於在機器集羣上運行的Hadoop和Map-Reduce。是否有人知道Apache發行版是否可以在具有多個內核的SMP上運行。特別是可以在同一臺機器上運行多個Map-Reduce進程。調度程序將負責將它們分佈到多個內核中。謝謝。 - KG多核機器上的Hadoop和map-reduce

回答

8

是的。有多個地圖,並減少在其由RAM和CPU確定每個機器時隙(每個JVM實例需要1GB默認所以8GB機16個核還是應具有7個任務時隙)

hadoop wiki

使用配置旋鈕:mapred.tasktracker.map.tasks.maximum和 mapred.tasktracker.reduce.tasks.maximum來控制在一個TaskTracker上同時產生的地圖/減少的數量 。默認情況下,其 設置爲2,因此在TaskTracker上給定實例時,最多可以看到2個映射,並減少2個 。

您可以在每個任務跟蹤器的基礎上設置這些值,以準確地反映您的硬件 (即,在更強大的任務跟蹤器 等中將這些設置爲更高的號碼)。

0

對於Apache Hadoop的2.7.3輕便,高效,可靠的MapReduce框架,我的經驗是,使紗線也將使多核心支持。下面是使單個節點上YARN一個簡單的指南:

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_a_Single_Node

默認的配置似乎工作得很好。如果要調整你的核心使用,那麼也許看看紗的site.xml(https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

內設置「yarn.scheduler.minimum分配-vcores」和「yarn.scheduler.maximum分配-vcores」此外,請參閱此處以獲取有關如何配置具有多核支持的簡單Hadoop沙盒的說明:https://bitbucket.org/aperezrathke/hadoop-aee