是否可以使用Oozie將MapReduce作業的輸出連接成單個文件?可以說我有輸出...使用Oozie組合輸出文件部分
part-r-00000
part-r-00001
part-r-00002
,我只是想......
output.csv
我知道我可以拉下來,與hadoop fs -getmerge
一個文件,但我很好奇,如果工作流應用程序和HDFS是可能的。
是否可以使用Oozie將MapReduce作業的輸出連接成單個文件?可以說我有輸出...使用Oozie組合輸出文件部分
part-r-00000
part-r-00001
part-r-00002
,我只是想......
output.csv
我知道我可以拉下來,與hadoop fs -getmerge
一個文件,但我很好奇,如果工作流應用程序和HDFS是可能的。
兩個簡單的選項,我能想到的:
你或許可以用豬或Java調用
或者將它添加到你自己的Oozie的fs動作分支中。
或者,使用webhdfs: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files。
您可以將該捲曲調用包裝在shell或ssh動作中。
是的,迄今爲止,我只看到了單減速器解決方案。我希望有更清潔的東西。如果事實證明沒有其他辦法,我會接受你的答案。 – climbage 2013-03-06 04:01:15
不幸的是,沒有辦法將文件連接到一臺服務器上,然後再上傳到HDFS – 2013-03-06 15:00:47