我一直在使用Elasticsearch已經有一段時間了,現在使用Cassandra的經驗並不多。Spark-Cassandra VS Spark-Elasticsearch
現在,我有一個項目,我們想使用spark來處理數據,但我需要決定是否應該使用Cassandra或Elasticsearch作爲數據存儲來加載我的數據。
就連接器而言,Cassandra和Elasticsearch現在都有一個很好的連接器來加載數據,所以不會成爲決定性因素。
決定勝利的因素將是我能夠在Spark中加載數據的速度。我的數據差不多是20TB。
我知道我可以使用JMeter運行一些測試並自己查看結果,但我想問任何熟悉這兩個系統的人。
感謝
問題是什麼? – eliasah
是的,這取決於數據檢索工作量。 Cassandra非常擅長通過鍵檢索部分數據,從spark可以只下推主鍵和集羣鍵上的過濾器,否則對於全表掃描(select * from table)不太好。 詳細描述你的用例,因爲cassandra和elasticsearch都非常「垂直」DBMS –
我的用例非常簡單,我需要使用Spark每天爲不同用戶(1M +)生成報告。現在,我需要將所有用戶的數據從Cassandra或Elasticsearch加載到Spark,並且沒有必要同時運行Cassandra和Elasticsearch。 –