4
有誰知道一個工具可以將Apache Hadoop的輸出文件「收縮」爲更少的文件或一個文件。目前我正在將所有文件下載到本地計算機,並將它們連接在一個文件中。所以沒有人知道一個API或一個相同的工具。 在此先感謝。如何減少Apache Hive中輸出文件的數量
有誰知道一個工具可以將Apache Hadoop的輸出文件「收縮」爲更少的文件或一個文件。目前我正在將所有文件下載到本地計算機,並將它們連接在一個文件中。所以沒有人知道一個API或一個相同的工具。 在此先感謝。如何減少Apache Hive中輸出文件的數量
限制輸出文件的數量意味着您想限制減速器的數量。你可以在Hive shell的mapred.reduce.tasks
屬性的幫助下做到這一點。例如:
hive> set mapred.reduce.tasks = 5;
但它可能會影響查詢的性能。或者,您可以在完成查詢後使用HDFS shell中的getmerge
命令。該命令將源目錄和目標文件作爲輸入,並將src中的文件連接到目標本地文件。
用法:
bin/hadoop fs -getmerge <src> <localdst>
HTH