0
我有一些由MapReduce輸出的lzo壓縮文件,它們將用於其他工作。所有這些文件都被編入索引,並將LzoTextInputFormat設置爲inputformat類。如何處理MapReduce中可拆分lzo文件的記錄/行邊界?
我的問題是:
當使用這些文件的LZO,如何處理記錄/行邊界?
記錄/行可能被截斷爲兩個相鄰的壓縮塊。如果兩個相鄰的塊在邏輯上被劃分成不同的映射器,則很難確定不完整的記錄/行並將這兩個部分結合起來。
有人可以幫助我嗎?