0
我將從複雜JSON對象導入的數據存儲爲Avro格式。Hadoop:查詢/閱讀Avro文件
JSON對象由具有嵌套對象和對象數組的對象表示。 Avro的模式是這樣的:
{
"type" : "record",
"name" : "userInfo",
"namespace" : "my.example",
"fields" : [{"name" : "username",
"type" : "string",
"default" : "NONE"},
{"name" : "age",
"type" : "int",
"default" : -1},
{"name" : "phone",
"type" : "string",
"default" : "NONE"},
{"name" : "housenum",
"type" : "string",
"default" : "NONE"},
{"name" : "address",
"type" : {
"type" : "record",
"name" : "mailing_address",
"fields" : [
{"name" : "street",
"type" : "string",
"default" : "NONE"},
{"name" : "city",
"type" : "string",
"default" : "NONE"},
{"name" : "state_prov",
"type" : "string",
"default" : "NONE"},
{"name" : "country",
"type" : "string",
"default" : "NONE"},
{"name" : "zip",
"type" : "string",
"default" : "NONE"}
]},
"default" : {}
}
]
}
我用NiFi到JSON轉換爲Avro公司和序列化文件存儲在Hadoop中(目前我只使用純的Hadoop):
我的問題:
出於測試目的,我想查詢存儲HDFS(Avro格式)的數據。
所以在這一點上,我有點困惑,因爲圍繞Hadoop的很多工具和技術.. 我該如何正確使用它?什麼工具和工作流程?