2013-05-09 83 views
2

我的數據看起來像每幀10萬個數值(真實+二進制)(想想數組,即數組的一行中有1000萬個元素),並且大約有100個幀/第二。一種時間序列。數值數據 - 高容量+高速度+快速檢索

對我的挑戰是:

(1)存儲 - 數據

(2)數據的處理速度

(3)實時分析

是卡桑德拉合適爲了這?任何人都可以在應用程序體系結構(Think hadoop,cassandra,kafka,storm等)上引導我一點,這將在上面的場景(從非常高的層面來看)中解決。

我知道我問過一些很大的東西。在實驗之前,我需要一個方向。

回答

2

作爲存儲引擎或處理數據的速度,Cassandra和Hadoop將以超羣的色彩通過。

現在進入實時部分,Cassandra可以爲您提供接近實時的解決方案,其中僅Hadoop是不夠的(批量性質,map-reduce作業)。您可以使用Storm與Hadoop一起嘗試,這會給您提供接近實時的功能,但會增加解決方案的複雜性(使用噴嘴和螺栓)。也可以嘗試一些規則引擎,這將爲您提供實時解決方案的額外優勢。

+0

感謝您的分享。您能否更詳細地說明您將如何實時集成Hadoop + Storm?你是否建議有兩個獨立的部分 - 實時風暴和Hadoop的批處理? – Suman 2013-05-13 21:36:09