我想知道如何在Hadoop/HDFS/Hbase中對數據進行版本化。它應該是你的模型的一部分,因爲很可能發生變化(大數據是長時間收集的)。數據版本(Hadoop,HDFS,Hbase後端)
HDFS(基於文件的後端)的主要示例。
採樣登錄file.log:
timestamp x1 y1 z1 ...
timestamp x2 y2 z2 ...
我現在不知道在哪裏添加的版本信息。我看到2種選擇:
文件格式內的版本
日誌file.log:
timestamp V1 x1 y1 z1 ...
timestamp V2 w1 x2 y2 z1 ...
內部文件的名稱版本
*登錄file_V1.log *
timestamp x1 y1 z1 ...
* log-file_V2.log *
timestamp w1 x1 y1 z1 ...
第二個選項(文件名中的版本)對我來說感覺有點乾淨,適合於HDFS(我可以簡單地使用* _v2 *作爲模式來排除舊版本的文件)。另一方面,我將需要運行2個不同的工作,因爲我無法分析單個作業中的版本代碼段。我猜HBase中的版本會在另一個表列(HDFS是實現細節並用作HBase的後端)中定義結束嗎??????????????????????????????
爲後端Hadoop/HDFS/HBase版本化數據的其他替代方法?
謝謝!
編輯:我的問題是有關如何處理版本信息本身,而不是時間戳。
感謝您提供有關時間戳的有用提示,但您將如何處理版本信息?時間戳和版本信息之間存在某種關係 - >更新版本的更新時間戳,但本身的版本信息與時間戳解耦 –