2015-04-28 71 views
2

我有一個.pig腳本,它用一些計算的數據創建一個文件。 我想要輸出文件名爲「result.txt」,而不是無意義的標準輸出名稱「part-r-00000」。Apache PIG - 如何更改文件的標準輸出名稱「part-r-00000」?

我.pig腳本中的最後一項是

器C到 '結果' 使用PigStorage();

因此「result」是HDFS中應該存儲result.txt的文件夾的名稱。

我該怎麼做?

+1

org.apache.pig.piggybank.storage中有很多存儲方法可用。您可以嘗試這些.. –

回答

1

part-r-XXXXX是沒有意義的,這取決於你打算如何使用它們。如果你需要這個豬腳本的結果加載到其他豬的腳本,你可以這樣做:

A = LOAD 'result' USING PigStorage() AS (...) ; 

由於LOAD可以採取一個目錄作爲輸入,將加載在該目錄下的每個文件。

如果你需要來處理輸出(本地)作爲一個單一的文本文件,那麼沒有什麼內建的PIG可以實現這一點。您需要編寫一個腳本來從hdfs中提取結果並將所有part-r-XXXXX文件連接在一起。