0
我想使用一個mapreduce作業將數據批量加載到多個表格。由於數據量很高,因此使用多個作業遍歷數據集並加載兩次會非常耗時。有沒有辦法做到這一點?提前致謝。在單個作業中批量加載到多個HBase表格
我想使用一個mapreduce作業將數據批量加載到多個表格。由於數據量很高,因此使用多個作業遍歷數據集並加載兩次會非常耗時。有沒有辦法做到這一點?提前致謝。在單個作業中批量加載到多個HBase表格
我正在使用Hbase。但我並不需要批量加載。但我遇到這篇文章可能會幫助你。
http://hbase.apache.org/book/arch.bulk.load.html
批量負載功能使用HBase的內部數據格式的MapReduce工作以輸出表數據,然後直接加載產生StoreFiles到正在運行的羣集。使用批量加載將比使用HBase API使用更少的CPU和網絡資源。
是的,我已經嘗試使用HFileOutFormat進行批量加載。我想知道它是否可以用於將數據加載到單個作業中的多個表中?像使用MultipleOutputs什麼的? – InfamousCoconut