我正在研究AWS上的Hive(特別是EMR)。它們提供了兩個選項AWS EMR Auto Scaling
- 產生Ad-hoc羣集,其中在執行預先指定的Hive查詢(在引導程序中)後執行EMR羣集評估。
- 在交互模式下產生一個Hive集羣,其中一個可以通過SSH連接到主服務器,並使用
hive
命令行客戶端提供Hive查詢。
很明顯,在第二個選項中,集羣將保持活動狀態,直到明確要求終止。
我想修改一個keep alive hive集羣中的從節點數量。我在emr faq中讀到它只支持task-nodes
的添加和刪除,但僅僅是添加(但不刪除)core-nodes
。核心節點有助於HDFS存儲,但任務節點不會。
我想向正在運行的羣集添加更多核心節點,並在正在運行的查詢數較少時將其縮小。有沒有辦法做到這一點(可能是使用cloudwatch)?
那麼,如果需要什麼保持活躍的蜂巢集羣,避免設置新的EMR集羣爲每個查詢的開銷並在完成後撕毀它? – 2013-02-25 13:39:32
也許你應該考慮Redshift(http://aws.amazon.com/redshift/) – Guy 2013-03-02 15:38:23
是的,可以看看...感謝指向這個方向。我想我的用例不會通過虛擬hive emr集羣來實現,所以會關閉這個問題。 – 2013-03-03 16:26:20