2014-06-18 22 views
0

我最近開始學習像SQOOP,Hive,Pig這樣的BigData技術,並發現有多種可供選擇的解決方案(如SQOOP,HiveQL等)可用於解決給定的問題。我對技術/工具的選擇有些困惑。BigData/Hadoop項目的典型流程?

如果你採取任何典型的微軟BI項目的大部分時間,流量爲

SSIS(處理原始數據) - > SSAS(創建OLAP DB) - > SSRS(生成報告)。

與此類似,BigData/Hadoop項目的典型流程是什麼。假設我的數據源是電子郵件日誌。

回答

0

它實際上取決於什麼是需求和你有什麼樣的技能。在我看來,你可以用多種方式處理電子郵件日誌。從源水槽水槽使用水槽--->日誌存儲在HDFS

選項

  1. (近實時)流電子郵件日誌--->分析使用或者豬或蜂巢日誌。
  2. (實時)使用Storm spouts流式處理電子郵件日誌--->在風暴螺栓中處理日誌--->將它們存儲在finnaly ins nosql數據庫中以供進一步的報告和分析。

還有很多其他的方法可以做到這一點。基於適合您需求的可用技能集,您可以決定。

+0

嗨Srinivasan,Thanq爲您的寶貴意見。假設我不需要實時處理數據。我只需要經營一個通宵工作,我只知道豬,蜂巢和Sqoop。那麼我可以遵循以下過程嗎? - 收集數據並對其進行處理並將其存儲在Hive中。然後Sqoop將數據放入一些RDBMS中用於報告目的 – SumanKumar

+0

是的,您可以很好地遵循您的方法來處理pig中的日誌文件並創建一箇中間輸出.--->將這些中間輸出文件用於Hive外部表格--->使用sqoop導出到您的RDBMS。 –

+0

Thanx Srinivasan :) – SumanKumar

相關問題