我們有一個系統可創建大量數據,最多可創建150萬個時間戳記錄,每秒約24MB,或每天約2TB。用於存儲時間戳數據TB的平臺
數據來自多個來源,有多種格式,一個共同點就是時間戳。
目前我們將大約5天的數據保存在文件中,並且擁有生成報告的內部軟件。
我們正在考慮創建一個可以保存和查詢多年數據的可擴展系統。
我們傾向於像Nathan Marz在How to beat the CAP theorem中描述的那樣,使用Hadoop/ElephantDB進行長期批量存儲,使用Storm/Cassandra進行實時層。
我想知道社區是否可以指出任何選擇或建議進一步閱讀?
我們的數據主要按時間組織的事實是否適用於特定類型的解決方案?
有沒有更好的論壇來問這樣的問題?
謝謝
您是否需要做彙總/批量報告,或者您還需要某種實時訪問。如果是這樣 - 請舉出一些訪問模式示例 –
我們既需要彙總/批量報告,又需要實時訪問。通常用戶請求基於時間的報告。這個項目(或這些項目)在時間t1-t2的價值是多少。什麼時候某個特定項目的值超出了範圍。 – wsh8z
單個報告需要彙總的數據大小是多少? –