2017-05-31 62 views
0

我想連接使用Pig的所有記錄。 與「pigStorage」和「-tagFile」標籤中的數據加載後,我的數據是這樣的:連接豬中的多條記錄

(filename, aaaaaaaaaaa) 
(filename, bbbbbbbbbbbbbb) 

,我更喜歡的結果是:

(filename, aaaaaaaaaaabbbbbbbbbbbbbb) 

然後,我可以將數據存儲到文件名爲rowkey的HBase。

任何建議將不勝感激。

回答

0

通過文件名對數據進行分組,然後使用BagToString將所有行李打包成單個字符串。

B = GROUP A BY filename; 
C = FOREACH B GENERATE group,BagToString(A.$1,''); 
DUMP C; 
+0

感謝您的答覆,I've嘗試這樣做,我得到了(文件名,{(文件名,AAAAAAAA),(文件名,bbbbbbbbbbb)}。我也試圖刪除文件名內部的元組,並得到(文件名,{(aaaaaaaaa),(bbbbbbbbbbbb)} –

+0

@ Y.Wang我已經更新了答案 –

+0

謝謝!!!!這是有效的! –