Q

連接到Hive表映射到HBase

hbase
hive

2013-10-09 144 views 2 likes

2

我們已經在HBase中創建了表，並且這些表使用HBase存儲處理程序映射到Hive。如果表中有超過100億的巨大記錄，並且如果我們需要根據某個列來連接這兩個表，並且這些列不是行密鑰ID列，那麼性能如何，有沒有什麼方法可以提高性能在表中連接映射到HBase的Hive表。連接到Hive表映射到HBase

Regards， GHK。

2013-10-09 GHK

A

回答

1

您使用Hive JOIN性能的哪個底層存儲無關緊要。所以HBase rowkey並不能幫助你與Hive。

你可以使用的一個技巧是mapjoin，如果你加入了一個巨大的小桌子，它的工作效果非常好。

你可以閱讀更多關於蜂巢此鏈接https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

2013-10-09 10:47:57

+0

我得到了它的連接性能，但在蜂巢我們有分區這也幫助我們限制了連接操作的記錄數，如果我們有一個蜂巢映射表HBase，那麼有沒有辦法在表連接中實現更快的響應 – GHK

+0

我認爲目前HBase存儲處理程序不可能實現。看看這個關於這個https://issues.apache.org/jira/browse/HIVE-1223的JIRA –

相關問題