2014-06-09 25 views
0

我有一個文件,其中每行數據都是json格式,但整個文件不是。我用豬把它弄亂/格式化爲:在Pig中查找和格式化單詞

value1a | value2a | ... 
value1b | value2b | ... 

等等,以及抓取列名的列表。

我能惹它,並得到了形式:

{ 
column1 
value1a 
column2 
value2a 
.... 
} 
{ 
. 
. 
. 
{ 
... 
} 

每行開頭{}結束。從那裏,我想要如上所述格式化數據。

可以用豬做這個嗎?我還沒有弄清楚。試圖製作一個單獨的加載程序來接受我想要的輸入會更簡單嗎?有沒有簡單的方法來格式化所選的值?

回答

0

我解決它與一個UDF,鑑於該模式的字符串,將解析爲重點:值對,然後就吐東西展現出來在(value1a, value2a, value3a...)

從那裏的形式,這只是一個用管道替換逗號的問題。

潛在的矯枉過正,但它完成了工作:)