感謝您對我的問題感興趣。 在開始之前,我想告訴你,我對Hadoop & HBase很陌生。到目前爲止,我發現Hadoop非常有趣,並希望在未來貢獻更多。HBase鍵值壓縮?
我主要對提高HBase的性能感興趣。爲此,我修改了HBase的/io/hfile/Hfile.java
中的Writer
方法,使其能夠進行高速緩衝數據彙編,然後直接寫入Hadoop,以便稍後由HBase加載。
現在,我試圖想出一種方法來壓縮鍵值對,以便可以節省帶寬。我已經做了大量的研究來弄清楚如何;然後意識到HBase具有內置的壓縮庫。
我正在查看SequenceFile (1); setCompressMapOutput (2)(已棄用);和類壓縮(3)。我還在Apache的MapReduce上找到了一個tutorial。
有人可以解釋一下「SequenceFile」是什麼,以及我如何實現這些壓縮庫和算法?這些不同的課程和文件對我來說非常混亂。
我真誠感謝您的幫助。
-
超鏈接:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
( 2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3):www.apache.org/dist/ hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
+1 - 應該爲大量用戶提供信息 –