我們如何處理來自Hadoop DB的處理數據（輸出）？

我是Hadoop的新手，因此如果我的問題太不成熟，我很抱歉。我們如何處理來自Hadoop DB的處理數據（輸出）？

我知道Hadoop用於分析大數據集上的數據。最後，我們如何處理分析的數據，我們創建報告和演示文稿？

例如對於如果在SSRS報告的情況下，報告將基於使用SQL查詢從RDBMS中提取的結果數據生成。

但是，基於Hadoop的數據庫如何工作？從客戶端請求特定報告，這需要Hadoop數據庫中的數據點，然後流程如何？我相信客戶端不會直接在hadoop上運行Job來爲其報告生成提取所需的數據，因爲hadoop作業需要更多時間來處理。

我的問題是，通過運行處理的數據（結果集）是否被存儲在任何中間體DB上的hadoop DB MR作業，像RDBMS？，以便客戶端可以提取生成報告所需的數據？

請在此澄清我。

2015-12-23 Matt

Hadoop的有2個主要部件

的Hadoop應與HDFS被可視更多作爲分佈式操作系統作爲分佈式存儲和映射減少爲內核。有很多工具可以利用這些分佈式功能，例如Hive，Pig，Sqoop，Impala，Datameer，Spark等。

一旦運行重物數據處理，如ETL，您可以加載數據傳回輕型關係型數據庫，並連接企業BI工具，SSRS報告目的。像Tableau這樣的商業智能工具也通過Spark連接到Hadoop，我們可以直接使用它來報告Hadoop。 Datameer是基於Hadoop的可視化工具，可用於報告數據。

總之，不應該將SSRS和Hadoop等工具進行比較。 Hadoop是無縫提供分佈式功能的技術，它周圍的生態系統可以用來解決利用它的業務問題。

2015-12-23 01:32:29

回答