2014-03-03 76 views
0

pig腳本使用.pig_header和.pig_schema輸出幾個零件文件(part-m-00000,part-m-00001等),我試圖將它們作爲一個輸出csv加入。 我嘗試使用Hadoop的合併如何加入Pig輸出文件?

hadoop fs -getmerge ./output output.csv 

但文件與.pig_schema文件以及合併,使其成爲像

header1,header2,header3 
{"fields":[{"name": "header1", "type":...}]} 
value1,value2,value3 

如何正確地加入他們的行列,而不包括.pig_schema ?

謝謝!

回答

1

使用fileglob:hadoop fs -getmerge ./output/part* output.csv

+0

謝謝!我如何包含標題(.pig_header)? – evanwong

+0

還沒有嘗試過,但你可以將它作爲參數添加:'hadoop fs -getmerge ./output/.pig_header ./output/part * output.csv' –