我正在對一些數據集進行一些轉換,需要將其發佈爲一種理智的查找格式。目前我的最後一組是這樣的,當我運行形容:將袋子換成豬拉丁語
{memberId: long,companyIds: {(subsidiary: long)}}
我需要它看起來像這樣:
{memberId: long,companyIds: [long] }
其中companyIds
的關鍵是長型的ID數組?
我真的很苦惱以這種方式操縱事物嗎?有任何想法嗎?我試過使用FLATTEN
和其他命令知道有效。我使用AvroStorage將文件寫入此架構:
場模式我需要寫這個數據看起來像這樣:
"fields": [
{ "name": "memberId", "type": "long"},
{ "name": "companyIds", "type": {"type": "array", "items": "int"}}
]
有豬沒有數組類型 - 我建議你寫你自己存儲功能將當前模式轉換爲更友好的文本格式 - 請參閱http://pig.apache.org/docs/r0.11.1/udf.html#load-store-functions –
嗯,我會,但我想利用AvroStorage()功能。我編輯了問題以包含我的輸出模式。 – sbilstein