我是豬新手,根據我的理解,SET default_parallel 1
聲明應該生成一個輸出文件,因爲它將使用一個縮減器。但是當我在下面的腳本上使用這個命令時,它給了我2個/ p文件。SET default_parallel 1;聲明不適用於豬
SET default_parallel 1;
A = LOAD 'hdfs:/pigfldr/union1' using PigStorage(' ') AS (sln:int);
B = LOAD 'hdfs:/pigfldr/union2' using PigStorage(' ') AS (sln:int);
C = UNION A, B;
STORE C INTO 'hdfs:/pigfldr/unionfres';
它也取決於你的hdfs集團的大小(其他參數),但爲什麼你想要有正好1個輸出文件?如果沒有出錯,我想你仍然會有「_succes」文件。 – AntonyBrd
我想合併這兩個文件。我希望首先將文件A的記錄放在一個文件中,然後再放入B. – Saswat
MapReduce過程給出多個輸出文件是很常見的。如果你想在你的本地文件系統中使用這些結果到一個文件中,請使用hadoop fs -get merge https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.html #getmerge,如果你想留在HDFS中使用output/path/*。 – AntonyBrd