我正在使用pig分析從Cassandra加載的數據。一,我得到列的是產品ID和產品信息以JSON格式的字符串:在Pig中解析JSON格式的字符串
row | ... | items | ... 1 | ... | "[{"id":"1", "useless_info":"blah"}, {"id":"2", "useless_info":"bleh"}]" | ... 2 | ... | "[{"id":"3"}]" | ... . | . | . | .
請注意,有些行會在字符串中的額外的東西,而其他人只會有ID。
不管怎麼說,我需要做的是分析每一個「項目」字符串和生成的ID號:
row | id | ... | 1 | 1 | ... | 1 | 2 | ... | 2 | 3 | ... | etc
據我所知,沒有JSON解析器豬在那裏,只裝和存儲功能(像elephantbird)。是否有可能像REGEX_EXTRACT那樣做我想要的東西,還是必須編寫自己的UDF(或者有更好,更漂亮,更聰明的方法)?
在此先感謝您的幫助!我使用的是豬0.93
可能重複的[我如何解析JSON在豬?](http://stackoverflow.com/q/5013003/90527) – outis 2012-03-29 03:10:30
是的,我看了那篇博客文章 - 他們正在使用[elephantbird](http: //eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/)來加載JSON格式的數據。我的數據實際上是所有字符串(並且已經加載到Pig中),並且只有一個部分具有類似JSON的格式(需要解析) – hriundel 2012-03-29 03:33:04