2016-06-29 41 views
1

我有json文件,體積約爲500 TB。我已經將完整集加載​​到配置單元數據倉庫中。hadoop - 驗證JSON數據加載到蜂巢倉庫

我該如何將validate or test the data加載到配置單元倉庫中。我應該是什麼testing strategy

客戶希望我們驗證json數據。加載到配置單元中的數據是否正確。有沒有錯過?如果是,那是哪個領域?

請幫忙。

+0

你有什麼刨覆蓋可以請你解釋一下更多的試驗區詳情 –

+0

我已更新我的問題..請檢查 – Ajay

+0

執行完整測試將不可能與此數據集,你必須去隨機抽樣測試。你可以寫一些配置單元查詢並驗證它。 –

回答

0

您的數據如何存儲在配置表格中?

一個選項是創建一個Hive UDF函數,該函數接收JSON字符串並驗證數據,並返回另一個帶有錯誤消息或空字符串的字符串(如果JSON字符串格式正確)。

這裏是一個HVE UDF教程:http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

隨着蜂巢UDF功能的地方,你可以executequeries喜歡:

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";