2011-10-27 37 views
1

我們有一個系統可創建大量數據,最多可創建150萬個時間戳記錄,每秒約24MB,或每天約2TB。用於存儲時間戳數據TB的平臺

數據來自多個來源,有多種格式,一個共同點就是時間戳。

目前我們將大約5天的數據保存在文件中,並且擁有生成報告的內部軟件。

我們正在考慮創建一個可以保存和查詢多年數據的可擴展系統。

我們傾向於像Nathan Marz在How to beat the CAP theorem中描述的那樣,使用Hadoop/ElephantDB進行長期批量存儲,使用Storm/Cassandra進行實時層。

我想知道社區是否可以指出任何選擇或建議進一步閱讀?

我們的數據主要按時間組織的事實是否適用於特定類型的解決方案?

有沒有更好的論壇來問這樣的問題?

謝謝

+0

您是否需要做彙總/批量報告,或者您還需要某種實時訪問。如果是這樣 - 請舉出一些訪問模式示例 –

+0

我們既需要彙總/批量報告,又需要實時訪問。通常用戶請求基於時間的報告。這個項目(或這些項目)在時間t1-t2的價值是多少。什麼時候某個特定項目的值超出了範圍。 – wsh8z

+0

單個報告需要彙總的數據大小是多少? –

回答

0

在同一時間同時具有實時訪問和可擴展批處理是一個棘手的問題。
雖然沒有完美的解決方案,但我會探索兩個以下功能: a)配置單元,按時間劃分分區並通過其他鍵(如客戶端ID或類似的東西)分區劃分。該解決方案將爲您提供:
數據導入的良好性能
彙總報告的良好吞吐量
一個子分區訪問的可能的可接受時間。雖然 - 它永遠不會有1-2秒。

b)輕靈。它是用cassandra代替HDFS的hadoop。它承諾給你所有你需要的東西,不過我希望數據加載性能和批量報告的性能要比香草hadoop差 - 因爲它專門爲它設計的。

相關問題