假設我有大約10-20GB的HDFS數據作爲Hive表。這是在幾個Map-Reduce作業之後獲得的,並通過兩個單獨的數據集進行聯接。我需要讓這個Queryable給用戶。我有什麼選擇?查詢Hive處理的大量數據
- 使用Sqoop將數據從HDFS傳輸到像Postgresql這樣的RDS。但我想避免在數據傳輸上花費太多時間。我只是使用Sqoop在同一AWS區域測試HDFS-> RDS,而800mb的數據需要4-8分鐘。所以你可以想象〜60GB的數據會非常難以管理。這將是我最後的手段。
- 根據用戶請求直接從Web服務器查詢Hive。我從來沒有像這樣使用Hive的頭,所以我對此持懷疑態度。這讓我感到震驚,因爲我發現你可以在EMR集羣上進行一些端口轉發之後遠程查詢配置單元表。但是對於大數據我是不太清楚與此相關的風險。這樣做常見嗎?
- 其他一些解決方案 - 人們通常如何做這種事情?看起來像一個很常見的任務。
只是爲了完整性的緣故,我的數據是這樣的:
id time cat1 cat2 cat3 metrics[200]
A123 1234212133 12 ABC 24 4,55,231,34,556,123....(~200)
.
.
.
(時間是劃時代)
我的查詢是這樣的:
select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;
我需要的相關函數,這就是爲什麼我選擇了cho在MySQL上使用postgresql。
是的我意識到這一點,但我主要想知道是否使用像這樣的Hive是好的做法或不... – user1265125 2014-10-28 19:30:36