我有一個問題,每天在分佈式環境中存儲50Gb的日誌。我查看了Hadoop HDFS,但由於它在Windows基礎結構上運行時出現問題,缺乏多語言文件系統API,所以它不適合我。另一方面,卡桑德拉非常容易在任何平臺上部署。我面臨的唯一的大問題是磁盤空間的使用。下面是數字:Cassandra是否足夠適用於根據磁盤空間使用情況存儲日誌?
- 原始日誌文件的大小爲224MB
- Cassandra的數據文件是557Mb
- 卡桑德拉索引文件了109M
所以我存儲從日誌行的時候得到了幾乎2倍的開銷日誌文件。
是否有可能以某種方式調整Cassandra,因此它不會爲非常簡單的場景吃掉太多的磁盤空間?
mamu,please read http://stackoverflow.com/questions/2359175/cassandra-file-structure-how-are-the-files-used/2359282#2359282 – Schildmeijer 2010-06-28 21:04:44