2012-11-26 74 views
4

我想知道當我在Cassandra的列族中插入新列時,有多少字節完全存儲在磁盤上。 我的主要問題是當我用Snappy壓縮列時需要知道這些信息,我知道原始字節的計算,但是由於數據的可變性,我無法正確估計壓縮比。 有關在Cassandra代碼庫中何處找到這些字節數量的任何信息都將受到歡迎。Cassandra壓縮代碼庫

在此先感謝。

回答

2

壓縮無法提供有保證的壓縮比率。您可以獲得的最好數據是樣本數據的平均比率。

因此,獲取樣本數據的負載,將其插入測試實例並測量磁盤使用情況。

您可能會使用Snappy壓縮很差的數據,實際上導致磁盤使用率超過存儲原始字節數。

當涉及到的數據壓縮有一個且只有一個規則:測量

+0

斯蒂芬,我一直在測試測量壓縮,而事實上,也有一定的列,使磁盤佔用率因爲RLE壓縮比較低。你已經證實了我的想法。我猜唯一的選擇是使用統計測量,因爲我相信壓縮只發生在Cassandra沖洗時,不是嗎? 再次感謝您。 – Amanda