Cassandra（BI數據庫數據複製）

我們有多個查詢和生成報告的數據庫。由於我們必須創建複雜的查詢並進行大量的連接等，如果我們使用Cassandra或Hadoop或Elasticsearch加載數據（日常作業加載數據或增量更新）並查詢此數據庫以查看所有任務，這是一個好主意。Cassandra（BI數據庫數據複製）

哪個會是Cassandra或Hadoop或Elasticsearch或MongoDB的首選？

我們還希望在統一數據庫上構建用於報告和分析的Web UI。

來源

2013-04-29 user993995

我不能推薦MongoDB。對於大數據分析來說，這是一個不好的地方，它的Map-Reduce實現很差，Map-Reduce速度慢，而且是單線程的。 Cassandra + Hadoop或HDFS + Hadoop是您的選擇。對於Hadoop，您不受存儲類型的限制，您可以在HDFS中刷新（或初始存儲）您的數據，並使用MapReduce對其進行迭代。

如果你需要在卡桑德拉耐久性看看。首先，Cassandra維護非常容易，非常可靠。我相信Cassandra是世界上最可靠的noSQL db。它絕對是可水平縮放的，沒有名稱節點，沒有主/從，所有節點都具有權限。

有了Elasticsearch，你只能做搜索。如果您有大量數據並且需要分析，則應該考慮Hadoop和MapReduce。

使用Hadoop，您可以開始使用Hive或Pig--我見過的最強大的地圖縮減抽象。藉助Hadoop，您甚至可以開始考慮遷移到Spark/Shark。

來源

2013-04-30 04:03:56 odiszapc

感謝您的回覆。 – user993995 2013-04-30 19:45:24

我正在尋找卡桑德拉 - 主要是因爲它易於安裝和維護，並且不需要添加太多組件。我們還希望分析cassandra可以幫助Map/Reduce嗎？ – user993995 2013-04-30 19:48:26

當然可以。將Cassandra想象成一對平坦的表格，比如帶有數據的HDFS文件。您可以使用Hadoop來迭代Cassandra的列族（它具有Cassandra的InputFormat）。您也可以使用Hadoop寫信給Cassandra。 – odiszapc 2013-05-01 09:53:08

-1

如果您的選擇限於這三個，Cassandra將會是最好的選擇，因爲在MapReduce程序中的書寫連接需要使用多個MapReduce程序和鏈接以便正確連接一個MapReduce程序。如果您的選項是開放的，Apache Hive可以用於非交互式或報告應用程序，因爲它支持相當多的SQL函數，例如連接，分組，按順序等。Apache Hive再次支持SQL查詢，並且不會有太多不同於傳統的SQL。

您還可以考慮使用Apache Drill，Hortonworks Stinger和Cloudera Impala進行交互式報告應用程序。

來源

2013-04-30 20:17:06

Cassandra（BI數據庫數據複製）

回答

相關問題