1
我正在開發一個用於從不同來源生成的數據的Hbase存儲。通常來自同一個源的列更可能同時被檢索到。預期的讀寫比率大致在1/10到1/100之間(取決於不同的來源)。Hbase多列家族vs多個表
所以有是我兩個選擇:
- 多列族:只要創建一個表和多個列族,從相同的源數據的每個種類將形成列族。
- 多個表格:爲每個來源創建一個表格(有一個列族)。
這裏有一些我的理解,請糾正我,如果有任何錯誤。
- 多表解決方案適用於動態添加新來源。雖然多列家族解決方案可能會導致停機。
- 如果不同來源的rowkey具有不同的分佈(例如,int user_id vs image GUID)或基數,也許最好是分成不同的表格?
- 我們可能有一些要求來同時檢索來自不同來源的相同rowkey的列。這樣,多列家族可能會更快(不確定)?
任何建議或做我需要之前考慮任何其他因素做出決定?是否有任何典型案例多表/多列家族勝過其他?
感謝