2011-11-20 89 views
2

我正在構建一個完整的「向外擴展」解決方案,以向我們的客戶提供深入的實時分析。Hadoop和分析?

客戶主要擁有多達200臺服務器,每臺服務器最多有400個會話正在進行,同時提供80000個會話。 我希望我可以提供會話分析,並使用BI工具(例如Tableau)提供圖形和查詢界面(基本上彙總查詢)。

我希望每個會話都是4分鐘長,並在4分鐘內觸發20個事件。每個事件可以是大約5個字段,主要是整數。我會在會話期間記錄開始日期,結束日期以及基本上一些計數器(例如點擊次數)。這是每秒約8000插入。

我雖然關於Hadoop,因爲RDBMS顯然不會很容易擴展(如果你說服我,PostgreSQL可以在5000-8000美元的機器上處理這個負載)將會使用PostgreSQL。

但是,我讀過Hadoop具有太多延遲,因爲它是面向批處理的,所以它可能不適合分析。你怎麼看 ?

網絡營銷行業用於提供數據庫和查詢的解決方案是什麼?

謝謝!

回答

3

事實上,Hadoop的核心是面向批處理的,這使得定期報告更好,而不是實時數據分析。

一種選擇是使用專用於事件處理的圖形和日誌記錄系統。在這種情況下,它看起來像Graphite這樣的工具將完美滿足您的需求。有一個post on the Etsy engineering blog描述瞭如何使用它。

如果您喜歡Hadoop,您可以使用基於Hadoop構建的內容,例如OpenTSDB,它使用HBase

+0

石墨看起來不錯,但不適合分析材料(過濾器/連接...)。無論如何感謝您指出! – SCO

4

推特已開源Storm,他們稱之爲Hadoop of realtime processinguse casestream processingdistributed rpc符合上述要求。請注意,這不依賴於Hadoop。 Here是關於Storm的演示文稿。然後有HStreaming,它位於Hadoop,S4,Streambases之上。

Plain Hadoop適合批處理,不適用於實時分析。以上是用於實時分析的s/w的一些。其中一些位於Hadoop之上(如HStreaming),另一些則不在。有些是免費的,有些是商業的。有許多變體,基於詳細的需求研究,由不同的軟件支持的功能,以及最終可以完成s/w的概念證明。

0

它確實是hadoop(井圖縮小),如果是批處理。 不過,hadoop也是一個分佈式的fs系統。 隨着實時數據進入您的羣集,您可以讓工作節點在它變爲可用時處理它。例如,如果您想每5分鐘更新一次儀表板,您可以設置一個從hdfs中讀取的惡魔,從個別跟蹤服務器讀取所有新添加的日誌文件,並更新Web應用程序讀取其存儲的地址數據。

在一天結束時,使用map reduce將完成您的demmon完成的操作,但是這次使用當天的所有文件以及羣集中的所有節點。