我是Hbase的新手。將文本文件中的數據批量加載到Hbase時,我遇到了一個問題。假設我有一個下表:解決方案爲行鍵設置不同的值,但在hbase中設置相同的時間戳?
Key_id | f1:c1 | f2:c2
row1 'a' 'b'
row1 'x' 'y'
- 當我解析2條,放入HBase的同時(相同的時間戳),那麼只有
{row1 'x' 'y'}
版本更新。這裏是解釋:
當你把數據放入HBase時,需要一個時間戳。時間戳可以由RegionServer自動生成,也可以由您提供。時間戳記必須在給定單元格的每個版本上都是唯一的,因爲時間戳記標識了版本。例如,要修改單元格的先前版本,您可以針對數據本身發出具有不同值的Put,但發佈時間戳相同。
我正在考慮指定的時間戳的想法,但我不知道如何來自動設置時間戳bulkloading和是否影響加載性能?我需要最快,最安全地導入大數據的過程。
- 我試着解析並將每條記錄放入表中,但速度非常慢......所以另一個問題是:數據中應該有多少記錄/放入hbase。 (我寫了一個簡單的java程序來放,這比使用imporrtsv工具的命令導入要慢很多,我不知道這個工具的批量大小究竟有多少)
很多thx爲你的提示!
對我很有用!非常感謝!! –