我打算在EC2上使用Hadoop。由於我們必須按實例使用情況進行支付,因此具有固定數量的實例比實際需要的實例並不好。EC2上的Hadoop集羣中按需生成奴隸
在我們的應用程序中,許多作業是同時執行的,我們並不總是知道從屬要求。是否可以用最少的奴隸啓動hadoop集羣,然後根據需求管理可用性?
即創建/點播摧毀奴隸
子問題:能否Hadoop集羣管理多個作業同時?
感謝
我打算在EC2上使用Hadoop。由於我們必須按實例使用情況進行支付,因此具有固定數量的實例比實際需要的實例並不好。EC2上的Hadoop集羣中按需生成奴隸
在我們的應用程序中,許多作業是同時執行的,我們並不總是知道從屬要求。是否可以用最少的奴隸啓動hadoop集羣,然後根據需求管理可用性?
即創建/點播摧毀奴隸
子問題:能否Hadoop集羣管理多個作業同時?
感謝
是在Hadoop中使用的默認調度是一個簡單的FIFO之一,你可以考慮使用FairScheduler該集羣的份額分配給每個正在運行的作業並擁有豐富的配置,以控制這些股。
就EC2而言 - 您可以輕鬆地開始使用一定數量的節點,然後一旦您看到隊列中的任務過多,並且羣集中的所有插槽都被佔用 - 請添加更多。您只需啓動一個實例並啓動一個任務跟蹤器,該任務跟蹤器將向jobtracker註冊。
但是,您將不得不擁有自己的系統來管理這些節點的啓動和關閉。
只想讓你知道,我們正在做這方面的一些工作Apache Whirr。我們正在跟蹤WHIRR-214的進度。投票或加入發展。 :)
我投了贊成票 – Nayn 2011-06-20 13:42:51