2013-10-09 106 views
2

我們已經在HBase中創建了表,並且這些表使用HBase存儲處理程序映射到Hive。如果表中有超過100億的巨大記錄,並且如果我們需要根據某個列來連接這兩個表,並且這些列不是行密鑰ID列,那麼性能如何,有沒有什麼方法可以提高性能在表中連接映射到HBase的Hive表。連接到Hive表映射到HBase

Regards, GHK。

回答

1

您使用Hive JOIN性能的哪個底層存儲無關緊要。所以HBase rowkey並不能幫助你與Hive。

你可以使用的一個技巧是mapjoin,如果你加入了一個巨大的小桌子,它的工作效果非常好。

你可以閱讀更多關於蜂巢此鏈接https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

+0

我得到了它的連接性能,但在蜂巢我們有分區這也幫助我們限制了連接操作的記錄數,如果我們有一個蜂巢映射表HBase,那麼有沒有辦法在表連接中實現更快的響應 – GHK

+0

我認爲目前HBase存儲處理程序不可能實現。看看這個關於這個https://issues.apache.org/jira/browse/HIVE-1223的JIRA –