在Pig中解析JSON格式的字符串

我正在使用pig分析從Cassandra加載的數據。一，我得到列的是產品ID和產品信息以JSON格式的字符串：在Pig中解析JSON格式的字符串

 
row | ... |        items          | ... 
1 | ... | "[{"id":"1", "useless_info":"blah"}, {"id":"2", "useless_info":"bleh"}]" | ...   
2 | ... | "[{"id":"3"}]"               | ... 
. | . |         .          | .

請注意，有些行會在字符串中的額外的東西，而其他人只會有ID。

不管怎麼說，我需要做的是分析每一個「項目」字符串和生成的ID號：

 
row | id | ... | 
1 | 1 | ... | 
1 | 2 | ... | 
2 | 3 | ... | 
etc

據我所知，沒有JSON解析器豬在那裏，只裝和存儲功能（像elephantbird）。是否有可能像REGEX_EXTRACT那樣做我想要的東西，還是必須編寫自己的UDF（或者有更好，更漂亮，更聰明的方法）？

在此先感謝您的幫助！我使用的是豬0.93

來源

2012-03-29 hriundel

可能重複的[我如何解析JSON在豬？]（http://stackoverflow.com/q/5013003/90527） – outis 2012-03-29 03:10:30

是的，我看了那篇博客文章 - 他們正在使用[elephantbird]（http： //eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/）來加載JSON格式的數據。我的數據實際上是所有字符串（並且已經加載到Pig中），並且只有一個部分具有類似JSON的格式（需要解析） – hriundel 2012-03-29 03:33:04

象鳥

PS具有JsonStringToMap，它解析JSON字符串並輸出頭豬地圖。這與它們的JsonLoader不同，後者在加載文件時解析JSON。

來源

2012-03-29 19:40:45 msponer

感謝您指出這一點。儘管我們需要不同的東西，但是基於JsonStringToMap編寫UDF相對比較簡單，儘管只有基本的Java知識。 – hriundel 2012-04-05 18:05:27

在Pig中解析JSON格式的字符串

回答

相關問題