關於Hadoop和壓縮輸入文件的非常基本的問題

@Luis但請記住，LZO是GPL許可的，因此適用常規條款和條件。另一種選擇是使用Google的Snappy壓縮。 [Google Snappy]（http://code.google.com/p/snappy/）它默認使用Hadoop打包（我使用0.20。x）和其他生態系統框架（如Apache Flume等）在默認情況下也很好理解。 – arcamax 2013-02-28 11:15:56

BZIP2可以在hadoop中拆分 - 它提供了非常好的壓縮比，但是從CPU時間和性能不能提供最佳結果，因爲壓縮非常耗費CPU資源。

LZO是裂開的Hadoop中 - 利用hadoop-lzo你已經裂開的LZO壓縮文件。您需要具有外部.lzo.index文件才能夠並行處理。該庫提供了以本地或分佈方式生成這些索引的所有方法。

LZ4是裂開的Hadoop中 - 利用hadoop-4mc你已經裂開的壓縮4mc文件。您不需要任何外部索引，並且可以使用提供的命令行工具或Java/C代碼（在hadoop內部/外部）生成歸檔。 4mc可以在任何級別的速度/壓縮比下使用hadoop LZ4：從快速模式達到500 MB/s壓縮速度到高/超模式，提供更高的壓縮比，幾乎與GZIP相當。

來源

2014-09-18 09:18:51

LZ4在Hadoop中不可拆分。 4mc是使用LZ4的文件格式，很像LZ4具有自己的Frame格式，而4mc文件格式是可拆分的。重要的是要做出這種區分：實際的.lz4文件在Hadoop中不可拆分：https：//issues.apache.org/jira/browse/HADOOP-12990。 – 2016-04-08 18:50:57

關於Hadoop和壓縮輸入文件的非常基本的問題

回答

相關問題