2012-11-02 43 views
0

我有一些由MapReduce輸出的lzo壓縮文件,它們將用於其他工作。所有這些文件都被編入索引,並將LzoTextInputFormat設置爲inputformat類。如何處理MapReduce中可拆分lzo文件的記錄/行邊界?

我的問題是:

當使用這些文件的LZO,如何處理記錄/行邊界?

記錄/行可能被截斷爲兩個相鄰的壓縮塊。如果兩個相鄰的塊在邏輯上被劃分成不同的映射器,則很難確定不完整的記錄/行並將這兩個部分結合起來。

有人可以幫助我嗎?

回答

1

使用SequenceFile。 SequenceFile使用同步標記寫入壓縮塊。因此,seqfiles是可拆分的。