AWS EMR Auto Scaling

我正在研究AWS上的Hive（特別是EMR）。它們提供了兩個選項AWS EMR Auto Scaling

很明顯，在第二個選項中，集羣將保持活動狀態，直到明確要求終止。

我想修改一個keep alive hive集羣中的從節點數量。我在emr faq中讀到它只支持task-nodes的添加和刪除，但僅僅是添加（但不刪除）core-nodes。核心節點有助於HDFS存儲，但任務節點不會。

我想向正在運行的羣集添加更多核心節點，並在正在運行的查詢數較少時將其縮小。有沒有辦法做到這一點（可能是使用cloudwatch）？

查詢數量的增加和減少與任務節點數量（Hadoop的計算部分）和核心節點數量（Hadoop的數據存儲部分）的數量相關性更大，因爲數據量沒有改變。

當您想要擴展和縮小查詢時，重新平衡和重新分配數據不是一個好主意。它太慢而且太複雜，不能提供任何真正的好處。

無需配置EMR的「支付使用費用」和快速啓動應該會鼓勵您在不需要它時終止集羣，並在需要時啓動新集羣。您可以優化EMR上的Hive，以便在啓動羣集時將您的表元數據存儲在外部MySQL數據庫中，以避免丟失或重複表定義。

2013-02-22 20:41:19 Guy

那麼，如果需要什麼保持活躍的蜂巢集羣，避免設置新的EMR集羣爲每個查詢的開銷並在完成後撕毀它？ – 2013-02-25 13:39:32

也許你應該考慮Redshift（http://aws.amazon.com/redshift/） – Guy 2013-03-02 15:38:23

是的，可以看看...感謝指向這個方向。我想我的用例不會通過虛擬hive emr集羣來實現，所以會關閉這個問題。 – 2013-03-03 16:26:20

使數據節點也可以放大也是有一定價值的。對於長時間運行的集羣，僅使用任務節點進行縮放可能會導致HDFS瓶頸（如果存在大量中間數據）。

您是否考慮過查看Qubole？ Qubole提供基於負載的自動擴展和縮減。用戶使用最小和最大從節點配置羣集。這些將是任務節點和數據節點。

2015-09-24 20:00:38

你可以看看Themis，一個在Atlassian開發的EMR自動縮放框架。目前的功能包括主動式和反應式自動縮放，它帶有一個Web UI，並且該工具非常易於配置。

（道歉，張貼在一個古老的線程，但得到的答覆仍然可以讓讀者發現這個線索很有趣。）

2016-07-27 14:21:38 whummer

我知道我是一個有點晚了這裏的聚會，但我有一個類似的問題很多次，我想分享一個可能的選擇。我已經編寫了一個Java工具來在處理過程中動態調整EMR集羣的大小。它可能有助於某人。瞧瞧吧：

的源代碼可在Github上

2016-08-21 21:50:35 user2836591

回答