0
我們正在將Oracle表與HBase進行sqooping並在Hive中創建映射表,並且似乎在我們進行sqooping時,所有數據都將到達一個區域,我在配置單元上查詢只有一個地圖taks正在執行以獲取記錄。將數據連接到HBase並與Hive整合會對性能產生影響
有什麼辦法可以提高性能。
我們正在將Oracle表與HBase進行sqooping並在Hive中創建映射表,並且似乎在我們進行sqooping時,所有數據都將到達一個區域,我在配置單元上查詢只有一個地圖taks正在執行以獲取記錄。將數據連接到HBase並與Hive整合會對性能產生影響
有什麼辦法可以提高性能。
您是否嘗試強制拆分表?
如果您的數據很小(小於1 GB或任何默認的最小區域大小),那麼您只會導入一個區域。您可以強制HBase將表分成多個區域,但如果數據很小,則可能沒有多大改進。
M/R工作歷史上一直存在很多開銷。 Hive的未來版本應該會有所幫助,但是這些改進可能還沒有成爲穩定的CDH發行版。
是的,我已經嘗試過對錶進行強制拆分,並且映射器的數量增加了,但是當我使用hbase表格分割後測量plain hive的性能時,它仍然比Hive上的執行時間花費更多的執行時間。 – GHK