2012-09-30 78 views
1

我對hbase有點新,並且已經能夠設置hbase並查詢存儲在多個hadoop計算機上的數據,但是我想知道是否可以在hbase中分發數據分析以及。hbase數據的分佈式分析

這是我的情況,我有幾十億條記錄需要快速分析,我想讓X服務器查詢數據庫並獲取查詢的獨特部分,以便他們可以使用它而不是使用單個服務器通過整個數據集。這是可能的,我該怎麼做?

我很不確定如何解決這個問題,因爲我意識到所有的查詢都需要協調(每個服務器不能單獨查詢hbase,否則hbase不會知道如何在服務器之間拆分請求)。我很困惑,但是也許有想在hadoop中做到這一點的本地方法?

如果有幫助,我的應用程序運行java,並使用cloudera分佈在EC2上運行集羣。

回答

1

由於某種原因,HBase基於Hadoop構建:)您可以使用Hadoop的map-reduce框架來分佈分析,並讓hadoop/hbase負責分配負載。 你可以從docs開始看看能做些什麼。

你擁有的另一個選擇是編寫協處理器。協處理器在區域服務器上運行,因此它們可以接近數據。你可以找到一個不錯的介紹here