2012-07-28 193 views
1

我的數據不需要實時加載,所以我不必使用HBASE,但我想知道在MR Jobs中是否有任何使用HBASE的性能優勢,不應該由於索引數據,連接速度會更快嗎?Hive over HBase vs Hive over HDFS

任何人都有任何基準?

回答

2

一般來說,hive/hdfs將比HBase快得多。 HBase位於HDFS之上,因此增加了另一層。如果你正在查閱個人記錄,HBase會更快,但你不會爲此使用MR作業。

0

尊敬的:)我想告訴你,如果你的數據不是真實的,你也在考慮mapreduce作業,那麼只能通過hdfs進行配置,因爲Weblogs可以被Hadoop MapReduce程序處理並存儲在HDFS中。同時,Hive支持快速讀取HDFS位置中的數據,基本SQL,加入並將批量數據加載到Hive數據庫。
作爲蜂巢還爲我們提供
批量處理/實時(如果可能)
以及SQL等內置在優化的接口
地圖,減少大型數據這與HDFS更相容的
分區和有助於減少的層HBase的,否則如果添加HBase的這裏,那麼這將是多餘的功能,爲你:)

2

性能HBase的對比蜂巢:

基於HBase的,蜂巢,蜂巢和HBase的上的結果:它看來,兩種方法之間的表現是可比的。

Hive on HBase Performance

enter image description here