是否有任何理由將hbase表拆分成更小的實體,還是可以永久增長(假設可用磁盤空間)?hbase表格實際上可以增長多少?
背景:
我們有實時數據(測量),最多可以說50萬/ s,這主要由時間戳,值,標誌。如果我們將這些值分配給不同的表格,那麼也意味着分別插入每個條目,這是一個性能殺手。如果我們批量插入,速度會更快。問題是,是否有任何缺點,有一個極端大小的hbase表?
是否有任何理由將hbase表拆分成更小的實體,還是可以永久增長(假設可用磁盤空間)?hbase表格實際上可以增長多少?
背景:
我們有實時數據(測量),最多可以說50萬/ s,這主要由時間戳,值,標誌。如果我們將這些值分配給不同的表格,那麼也意味着分別插入每個條目,這是一個性能殺手。如果我們批量插入,速度會更快。問題是,是否有任何缺點,有一個極端大小的hbase表?
我看不出人工的拆分HBase的表點,HBase的做到這一點對自己和非常好(這稱爲HBase table regions)
的HBase已經取得了處理極大量的數據,所以我喜歡相信限制取決於您的硬件只(當然,這樣的配置可能會影響性能,如自動主要壓實等)
有可能是背後拆分表格,這是避免RegionServer的hotspotting一個強有力的理由,通過跨多個RegionServer分配負載。 HBase憑藉其性質在一個地方連續存儲行。具有相似密鑰的行轉到同一臺服務器(例如時間序列數據)。這是爲了便於更好的範圍查詢。但是,一旦數據變得太大(並且磁盤仍然有空間),這就開始成爲瓶頸。
類似上述數據的情況下將繼續進入同一個RegionServer,導致熱點。因此,我們手動拆分表以在整個集羣中均勻分配數據。