5

現在我面臨着創建數據倉庫以存儲和處理大量數據的挑戰。估計金額每天超過70億美元。數據應該保存7天。平均事件大小是〜0.5 - 1 Kb。我們需要處理的數據爲:選擇大數據倉庫

  • 生成報告;
  • 火車模型。

目前我評價:

  • 谷歌的BigQuery
  • 紅移
  • Stratio +卡桑德拉+ AWS + EMR + EBS
  • Cloudera公司+ AWS

所以我感興趣於:

  • 解決方案,您貴公司(框架,安裝,數據庫,節點的數量等)
  • 任何實際成本的例子/比較內使用,如果可能的
  • 管理的複雜性(DEVOPS)
+2

有關**專業服務器或網絡相關基礎設施管理**的問題,除非直接涉及編程或編程工具,否則無法用於堆棧溢出。您可能可以在[服務器故障](http://serverfault.com/tour)上獲得幫助。 –

+0

@MoralesBatovski不是,這個話題更大,涉及到來自Stratio和Cloudera公司的軟件解決方案和框架。而bigquery是有彈性的,只能通過API ... –

+0

過於寬泛和offtopic。 –

回答

1

我們使用BigQuery中,優點:

  • SQL,基於列
  • 支持列JSON數據 - >優點,非結構化
  • 非常便宜1 PB每月大約21K美元。由谷歌
  • 管理服務,沒有DEVOPS
  • 100 000行/秒的攝取能力
  • 看到幻燈片#24從鏈接的演示文稿

更多的用例和架構你會發現:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

+0

從您的經歷中找到的任何缺點? –

+2

缺乏專業支持,奇怪的API錯誤,需要非常先進的SQL開發者,但這很有趣。 – Pentium10

4

我最近在Mark Lit的系列文章中,比較了BigQuery,Spark,Hive,Presto,ElasticSearch,AWS Redshift,AWS EMR和Google Dataproc:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

摘要摘要:

  • 同一數據集(1十億行),相同的查詢,很多技術和配置。
  • BigQuery是運行查詢最快的:2秒。
  • 默認情況下,BigQuery是唯一一個快速搜索:無需優化或需要數據預處理。 25分鐘內裝載了10億行數據,並準備好查詢數據。
  • 其他解決方案需要數小時才能加載數據(成本非常高),而且比BigQuery慢了許多倍。

但是你可以得到的最好的基準是你自己的:嘗試BigQuery應該是快速和容易的。然後嘗試找到另一個可以快速加載數據的平臺,查詢速度更快,或者接近價格。馬克試過了,那是他的發現。

+0

感謝好帖子 –