當前我正在使用cassandra爲我的功能用例(向用戶顯示時間序列和合並數據)存儲數據。 Cassandra是它非常好,如果你正確地設計數據模型(查詢驅動)大數據 - Lambda架構和存儲原始數據
基本上,數據從RabbitMQ的攝入受風暴並保存到卡桑德拉
LAMBDA架構僅僅是一個大端設計模式數據架構師和技術獨立,層可以結合:
Cassandra是一個數據庫,可以用作服務層&批處理層:我用它也用於我的分析目的與火花(因爲數據已經很好格式化,像時間系列,在卡桑德拉)
據我所知,需要考慮的重大事情之一是在進行任何處理之前存儲您的原始數據。你需要這樣做,以恢復任何問題,基於人爲的(算法問題,PROD中的DROP TABLE,類似這可能發生的事情......)或將來使用或主要用於批量聚合
而在這裏,我我面臨的選擇:
目前我存儲在卡桑德拉,但我考慮切換存儲原始數據在HDFS的原因不同:原始數據是「死」,使用卡桑德拉令牌,使用資源(主要磁盤空間)在cassandra羣集中。
有人可以幫我選擇嗎?
工作謝謝你,我是考慮將我的原始數據分組在日期目錄中,例如/ day1/ 對於小文件問題,我計劃使用HDFS序列文件。 您是否認爲我的原始數據會保存一些磁盤空間切換到HDFS?無論如何,我要測試它,謝謝! – Eldinea
永遠不要排序文件!非常龐大,讀取效率很高。看看ORC或Parquet。 – Venkat