2011-07-02 158 views
2

我正在使用Cassandra來存儲我解析的站點日誌。我有兩個具有多個二級索引的列族。日誌數據本身大小約爲30 GB。然而,cassandra數據庫的大小是〜91g。有什麼辦法可以減少這家商店的大小?另外,將有多個二級索引對數據存儲大小有重大影響?Cassandra數據存儲大小

回答

4

潛在地,二級指標可能會產生很大的影響,但很明顯,這取決於您對它們的投入!如果大多數數據條目都出現在一個或多個索引中,那麼這些索引可能佔您存儲空間的很大一部分。

您可以看到每個列族使用JConsole和/或'nodetool cfstats'有多少空間。

您還可以查看磁盤數據文件的大小以瞭解使用情況。

也有可能數據沒有經常刷新到磁盤 - 這可能導致很多commitlog文件長時間留在磁盤上,佔用額外的空間。如果您的某些列系列僅輕載,則會發生這種情況。請參閱http://wiki.apache.org/cassandra/MemtableThresholds以獲取調整參數。

如果您有很多小列,那麼列名可能會佔用相當大比例的存儲空間,所以在有意義的情況下可能需要縮短它們的大小(如果它們是時間戳或其他有意義的數據,則不是這樣)。 。

+1

感謝您的DNA提示!我做了一些分析,發現快照也佔用了很多空間。 –

+0

好點 - 您可以使用nodetool本地和全局刪除快照,或者只是手動刪除它們。 – DNA