現在我面臨着創建數據倉庫以存儲和處理大量數據的挑戰。估計金額每天超過70億美元。數據應該保存7天。平均事件大小是〜0.5 - 1 Kb。我們需要處理的數據爲:選擇大數據倉庫
- 生成報告;
- 火車模型。
目前我評價:
- 谷歌的BigQuery
- 紅移
- Stratio +卡桑德拉+ AWS + EMR + EBS
- Cloudera公司+ AWS
所以我感興趣於:
- 解決方案,您貴公司(框架,安裝,數據庫,節點的數量等)
- 任何實際成本的例子/比較內使用,如果可能的
- 管理的複雜性(DEVOPS)
現在我面臨着創建數據倉庫以存儲和處理大量數據的挑戰。估計金額每天超過70億美元。數據應該保存7天。平均事件大小是〜0.5 - 1 Kb。我們需要處理的數據爲:選擇大數據倉庫
目前我評價:
所以我感興趣於:
我們使用BigQuery中,優點:
更多的用例和架構你會發現:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup
從您的經歷中找到的任何缺點? –
缺乏專業支持,奇怪的API錯誤,需要非常先進的SQL開發者,但這很有趣。 – Pentium10
我最近在Mark Lit的系列文章中,比較了BigQuery,Spark,Hive,Presto,ElasticSearch,AWS Redshift,AWS EMR和Google Dataproc:
摘要摘要:
但是你可以得到的最好的基準是你自己的:嘗試BigQuery應該是快速和容易的。然後嘗試找到另一個可以快速加載數據的平臺,查詢速度更快,或者接近價格。馬克試過了,那是他的發現。
感謝好帖子 –
有關**專業服務器或網絡相關基礎設施管理**的問題,除非直接涉及編程或編程工具,否則無法用於堆棧溢出。您可能可以在[服務器故障](http://serverfault.com/tour)上獲得幫助。 –
@MoralesBatovski不是,這個話題更大,涉及到來自Stratio和Cloudera公司的軟件解決方案和框架。而bigquery是有彈性的,只能通過API ... –
過於寬泛和offtopic。 –