在HDFS上合併壓縮文件

如何將HDFS上的一個目錄中的所有文件（我知道都是壓縮的）合併到單個壓縮文件中，沒有通過本地機器複製數據？例如，但不一定，使用豬？例如，我有一個文件夾/ data/input，它包含文件part-m-00000.gz和part-m-00001.gz。現在我想合併成一個文件/data/output/foo.gz在HDFS上合併壓縮文件

來源

2015-05-06 matthiash

我知道有一個選項可以使用「hdfs dfs -getMerge」命令合併到本地文件系統。也許你可以使用它來合併到本地文件系統，然後使用'hdfs dfs -copyFromLocal'命令將其複製回hdfs。

來源

2015-05-06 14:23:59 Anil

但我想避免必須將數據傳送回本地文件系統。 – matthiash

如果將Parallel設置爲1，那麼您將擁有單個輸出文件 This可以通過兩種方式來完成：

添加set default_parallel 20;但要注意，這種影響一切都在你的豬
更改並行對於單個操作 - 像DISTINCT ID PARALLEL 1;

可以閱讀更多關於Parallel Features

來源

2015-05-06 18:24:08 Mzf

我會建議看FileCrush（https://github.com/edwardcapriolo/filecrush），這是一個使用MapReduce在HDFS上合併文件的工具。它完全符合您所描述的內容，並提供了若干選項來處理壓縮和控制輸出文件的數量。

Crush --max-file-blocks XXX /data/input /data/output

max-file-blocks表示每個輸出文件的最大dfs塊數。例如，根據文檔：

使用默認值8，80個小文件，每個都是DFS 塊將被分組爲以自8 * 1/10單個輸出文件的1/10 = 8 dfs塊。如果有81個小文件，每個文件都是塊的1/10，則會創建兩個輸出文件。一個輸出文件包含41個文件的組合內容，第二個將包含另一個40的組合內容。許多小文件的目錄將被轉換爲更少數量的較大文件，其中每個輸出文件的大小相當於尺寸。

來源

2015-05-06 19:02:19

在HDFS上合併壓縮文件

回答

相關問題