2

我正在考慮各種數據倉庫和商業智能技術,並且已經發布了這個名爲Hadoop的激進工具。 Hadoop似乎並不完全是爲了BI目的而構建的,但是在這個領域裏有一些潛在的參考。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。評估和比較Hadoop商業智能設計注意事項

但是我從互聯網上得到的信息很少,我的直覺告訴我,hadoop可以成爲傳統BI解決方案領域的顛覆性技術。關於這個主題的信息確實稀少,因此我想在這裏收集所有Guru關於Hadoop作爲BI工具潛力的想法,與傳統的後端BI基礎設施(如Oracle Exadata,Vertica等)相比。首先,我想問以下問題 -

  • 設計考慮 - 如何將設計用Hadoop BI解決方案是從傳統工具不同?我知道它應該是不同的,因爲我讀了一個不能在Hadoop中創建模式。我還讀到,一個主要的優勢將是徹底消除Hadoop的ETL工具(這是真的嗎?)我們是否需要Hadoop + pig + mahout來獲得BI解決方案?

謝謝&關心!

編輯 - 分解成多個問題。將從我認爲最重要的人開始。

+1

太多的問題在那裏。 – Mat

+0

@Mat - 同意。將從最imp的一開始。 – Jai

回答

2

Hadoop是成爲BI解決方案一部分的強大工具。它本身不是一個BI解決方案。 Hadoop所做的是接受Data_A並輸出Data_B。無論需要什麼,但不是有用的形式,都可以使用MapReduce進行處理並輸出一個有用的數據形式。無論是CSV,HIVE,HBase,MSSQL還是其他用來查看數據的東西。

我相信Hadoop應該是ETL工具。這就是我們使用它的原因。我們每小時處理一組日誌文件並將其存儲在Hive中,並執行每日聚合,這些聚合將加載到MSSQL服務器並通過可視化層進行查看。

主要設計考慮,我對運行有:
- 數據靈活性:你想對你的用戶查看預先彙總數據,或者可以靈活調整的查詢,並在數據看看他們怎麼想
- 速度:您希望用戶等待數據多長時間? Hive(例如)很慢。即使在相當小的數據集上,生成結果也需要幾分鐘的時間。數據越大,生成結果所用的時間就越長。
- 可視化:你想使用什麼類型的可視化?您是否想要定製大量的作品或能夠使用現成的東西?您的可視化需要哪些限制和靈活性?可視化需要多麼靈活和多變?

心連心

更新:作爲詢問缺少可視化的,以@銖的評論的迴應...
缺乏一個可視化工具,使我們有效地利用存儲在HBase的數據是重新評估我們的解決方案的主要因素。我們將原始數據存儲在Hive中,並預先彙總數據並存儲到HBase中。爲了利用這個,我們將不得不編寫一個自定義連接器(做這個部分)和可視化層。我們研究了我們能夠生產什麼,以及什麼是商業可用的,並走上了商業路線。
我們仍然使用Hadoop作爲我們的ETL工具來處理我們的博客,這真是太棒了。我們只是將ETL的原始數據發送到商業大數據數據庫,該數據庫將取代我們設計中的Hive和HBase。

Hadoop沒有真正與MSSQL或其他數據倉庫存儲進行比較。 Hadoop不會執行任何存儲(忽略HDFS),它會處理數據。運行MapReduces(Hive所做的)將比MSSQL(或類似的)慢。

+0

這很有趣。謝謝。無法使用可視化工具是不使用Hadoop原始輸出的重要原因,因此將其用作ETL工具?與MSSQL數據或倉庫相比,Hadoop會一直很慢嗎? – Jai

+2

速度問題真的取決於很多事情。啓動MapReduce作業所需的等待時間相對較長,因此即使是最簡單的Hive查詢(例如),如果必須啓動MapReduce作業,也不會是即時的。但是,如果你有TB的數據,像MSSQL這樣的東西不會很好地擴展,而Hadoop/Hive會(通過添加機器)。 儘管如此,Hive在索引等一些領域缺乏良好的支持。像Vertica或Teradata可能表現更好,但那些是$$$。 – ajduff574

+0

@ ajduff574:速度是使用Hadoop/Hive修改「最簡單」的方面,只需要投入更多的機器即可。 :)我們正在從HStack切換到使用Hadoop/Vertica/Tableau出於上述3個原因。 – Nija

2

Hadoop非常適合存儲可以表示事實表的龐大文件。這些表可以通過將表示表的單個文件放入不同的目錄中進行分區。 Hive理解這樣的文件結構並允許像分區表一樣查詢它們。您可以通過Hive以SQL查詢的形式將您的BI問題短語添加到Hadoop數據中,但您仍然需要編寫和運行偶爾的MapReduce作業。

0

從業務角度來看,如果您有很多低價值數據,您應該考慮Hadoop。 RDBMS/MPP解決方案不具有成本效益的情況下有很多情況。 如果您的數據不是結構化的(例如HTML),您還應該將Hadoop視爲一個嚴肅的選項。