3
我的形式接收數據Apache的豬:合併屬性列表插入一個元組
id1|attribute1a,attribute1b|attribute2a|attribute3a,attribute3b,attribute3c....
id2||attribute2b,attribute2c|..
我想這一切融合成一種形式,我只是有一個ID字段的元組的包後面是一個包含所有其他字段的列表的合併在一起的元組。
(ID1,(attribute1a,attribute1b,attribute2a,attribute3a,attribute3b,attribute3c ...)) (ID2,(attribute2b,attribute2c ...))
目前我取它像
my_data = load '$input' USING PigStorage(|) as
(id:chararray, attribute1:chararray, attribute2:chararray)...
然後我試過FLATTEN,記號化,生成,TOTUPLE,BagConcat等的所有組合,以按摩到我想要的形式,但我是新來的豬,只是無法弄清楚。誰能幫忙?任何開源的UDF庫都是公平的遊戲。
感謝您的幫助。 – Manny