如果我有兩個文本文件,一個和,有什麼區別:兩個concatenated bz2文件和一個由兩個連接文件構成的bz2文件有什麼區別?
BZ2一二-c> out.bz2
......還有......
cat one two | bzip2 -c> out.bz2
?
具體來說,我使用pbzip2生成bz2文件,將它們放在HDFS上,然後從豬身上讀取它們,然後打到MAPREDUCE-477。我無法從版本0.20升級我的hadoop羣集,使用非並行bz2實現太慢,我想使用非塊壓縮算法。
有什麼辦法可以將連接的bz2文件轉換爲非連接的文件嗎?甚至,我將如何修改pbzip2,以便它生成非串聯的bz2文件?
謝謝 -
是的,但bz2是塊壓縮算法,所以塊之間不應該存在依賴關係?他們可能有不同的字典,但我不確定在某些應用程序(例如MAPREDUCE-477)中只讀取第一個文件的塊是如何產生的? –
如果塊是1000字節,第一個文件是1300字節,第二個文件是1700字節;然後猜測當文件連接在一起然後壓縮時,中間的塊將包含哪些內容。 – Brendan