2012-09-12 98 views

回答

0

你大部分都是正確的。我會說,在亞馬遜上運行Hive的最方便的方式是使用S3替換HDFS的 。這是很實際的,因爲數據是在S3上生活的,我們可以按需運行Hadoop/Hive集羣。一些缺點是寫入性能慢 - 因此進行數據轉換將會很慢。做聚合 - 大多是好的
在同一時間還有其他配置:
在本地驅動器上構建HDFS。
通過EBS卷構建HDFS。
每一個與他們的權衡。

+0

1.寫入性能比您建議的其他方法慢多少?哪一個選項最便宜即將消耗最少的AWS資源? 3.我想知道是否使用cloudera AMI將成爲在本地驅動器上構建HDFS的好替代品。 – EternallyCurious

+0

這取決於實例的種類 - 因爲它們與存儲具有不同的網絡連接。但大概我估計爲x10 –