2015-12-23 50 views
0

我是Hadoop的新手,因此如果我的問題太不成熟,我很抱歉。我們如何處理來自Hadoop DB的處理數據(輸出)?

我知道Hadoop用於分析大數據集上的數據。 最後,我們如何處理分析的數據,我們創建報告和演示文稿?

例如對於 如果在SSRS報告的情況下,報告將基於使用SQL查詢從RDBMS中提取的結果數據生成。

但是,基於Hadoop的數據庫如何工作?從客戶端請求特定報告,這需要Hadoop數據庫中的數據點,然後流程如何? 我相信客戶端不會直接在hadoop上運行Job來爲其報告生成提取所需的數據,因爲hadoop作業需要更多時間來處理。

我的問題是,通過運行處理的數據(結果集)是否被存儲在任何中間體DB上的hadoop DB MR作業,像RDBMS? ,以便客戶端可以提取生成報告所需的數據?

請在此澄清我。

回答

1

Hadoop的有2個主要部件

  • 分佈式存儲(HDFS)
  • 分佈式計算(地圖縮小)

的Hadoop應與HDFS被可視更多作爲分佈式操作系統作爲分佈式存儲和映射減少爲內核。有很多工具可以利用這些分佈式功能,例如Hive,Pig,Sqoop,Impala,Datameer,Spark等。

一旦運行重物數據處理,如ETL,您可以加載數據傳回輕型關係型數據庫,並連接企業BI工具,SSRS報告目的。像Tableau這樣的商業智能工具也通過Spark連接到Hadoop,我們可以直接使用它來報告Hadoop。 Datameer是基於Hadoop的可視化工具,可用於報告數據。

總之,不應該將SSRS和Hadoop等工具進行比較。 Hadoop是無縫提供分佈式功能的技術,它周圍的生態系統可以用來解決利用它的業務問題。