用於存儲時間戳數據TB的平臺

我們有一個系統可創建大量數據，最多可創建150萬個時間戳記錄，每秒約24MB，或每天約2TB。用於存儲時間戳數據TB的平臺

數據來自多個來源，有多種格式，一個共同點就是時間戳。

目前我們將大約5天的數據保存在文件中，並且擁有生成報告的內部軟件。

我們正在考慮創建一個可以保存和查詢多年數據的可擴展系統。

我們傾向於像Nathan Marz在How to beat the CAP theorem中描述的那樣，使用Hadoop/ElephantDB進行長期批量存儲，使用Storm/Cassandra進行實時層。

我想知道社區是否可以指出任何選擇或建議進一步閱讀？

我們的數據主要按時間組織的事實是否適用於特定類型的解決方案？

有沒有更好的論壇來問這樣的問題？

謝謝

來源

2011-10-27 wsh8z

您是否需要做彙總/批量報告，或者您還需要某種實時訪問。如果是這樣 - 請舉出一些訪問模式示例 –

我們既需要彙總/批量報告，又需要實時訪問。通常用戶請求基於時間的報告。這個項目（或這些項目）在時間t1-t2的價值是多少。什麼時候某個特定項目的值超出了範圍。 – wsh8z

單個報告需要彙總的數據大小是多少？ –

在同一時間同時具有實時訪問和可擴展批處理是一個棘手的問題。
雖然沒有完美的解決方案，但我會探索兩個以下功能： a）配置單元，按時間劃分分區並通過其他鍵（如客戶端ID或類似的東西）分區劃分。該解決方案將爲您提供：
數據導入的良好性能
彙總報告的良好吞吐量
一個子分區訪問的可能的可接受時間。雖然 - 它永遠不會有1-2秒。

b）輕靈。它是用cassandra代替HDFS的hadoop。它承諾給你所有你需要的東西，不過我希望數據加載性能和批量報告的性能要比香草hadoop差 - 因爲它專門爲它設計的。

來源

2011-11-11 10:12:01

用於存儲時間戳數據TB的平臺

回答

相關問題