Apache Spark和Apache Storm有什麼區別?每個適合的用例是什麼?Apache Spark與Apache Storm
回答
Apache Spark是一個內存分佈式數據分析平臺 - 主要針對加快批量分析作業,迭代機器學習作業,交互式查詢和圖形處理。
Spark的主要區別之一是其使用RDD或彈性分佈式數據集。 RDD對於流水線並行運算符的計算非常有用,並且根據定義,它是不可變的,這使得Spark能夠根據血統信息提供獨特的容錯形式。例如,如果您對加快執行Hadoop MapReduce作業感興趣,Spark是一個不錯的選擇(儘管必須考慮內存要求)。
Apache Storm專注於流處理或者一些所謂的複雜事件處理。 Storm實現了一種容錯方法,用於在事件流入系統時執行計算或流水線化多個事件。有人可能會使用Storm將非結構化數據轉換爲所需的格式。
Storm和Spark關注於相當不同的用例。更多的「蘋果對蘋果」比較將在Storm Trident和Spark Streaming之間。由於Spark的RDD本質上是不可變的,因此Spark Streaming實現了一種在用戶定義的時間間隔中「批量」傳入更新的方法,該時間間隔將轉換爲其自己的RDD。然後Spark的並行運算符可以對這些RDD執行計算。這與Storm分別處理每個事件是不同的。
這兩種技術的一個主要區別是Spark執行Data-Parallel computations而Storm執行Task-Parallel computations。任何一種設計都會做出值得認識的折衷。我會建議查看這些鏈接。
編輯:發現this今天
好解釋。提到的文章很好http://xinhstechblog.blogspot.in/2014/06/storm-vs -spark-streaming-side-by-side.html – minhas23
鏈接不響應我。下面是谷歌緩存:http://webcache.googleusercontent.com/search?q=cache:yl9B_lZ5u9EJ:xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.html+ &cd = 1&hl = ru&ct = clnk&gl = ru – asdfasdfads
極好的並排比較鏈接。關注Scala開發者:Storm在Closure中實現,而Spark在Scala中實現。 –
- 1. Apache Apex如何與Apache Storm不同?
- 2. 處理日誌文件:Apache Storm或Spark
- 3. Apache Storm與Hadoop相比
- 4. Apache Spark與python
- 5. Apache Storm java.nio.channels.ClosedChannelException:null
- 6. Apache Storm&Vagrant。 org.apache.storm.utils.NimbusLeaderNotFoundException
- 7. Apache Spark vs Apache Spark 2
- 8. Apache SPARK與SQLContext :: IndexError
- 9. Apache Spark vs Apache Ignite
- 10. 與Cassandra行爲的Apache Spark
- 11. Apache Storm一次性處理
- 12. Twitter Storm v/s Apache Hadoop
- 13. Azure Eventhub Apache Storm問題
- 14. OpenCV - Apache Storm發生'UnsatisfiedLinkError'
- 15. 達到Apache Storm的限制
- 16. Apache Storm的數據攝入
- 17. apache storm yaml blockmappingstart消息
- 18. 如何連接Azure機器學習和Spark Streaming或Apache Storm
- 19. logstash和apache storm/spark streaming之間的主要區別是什麼?
- 20. 如何將elasticsearch連接到apache spark或storm?
- 21. apache spark集羣
- 22. Apache Spark配置
- 23. Apache Spark mapPartitionsWithIndex
- 24. java apache spark mllib
- 25. apache spark實現
- 26. Apache Spark - java.lang.NoSuchMethodError:breeze.linalg.DenseVector
- 27. Apache Spark性能
- 28. Talend和Apache Spark?
- 29. Apache Spark FileNotFoundException
- 30. Apache Spark Worker Timeout
@ MC110:實時處理兩者都支持。雖然Storm支持數據運動,但Spark支持靜態數據。還有什麼? – anhldbk
這個鏈接總結得很好https://dzone.com/articles/streaming-big-data-storm-spark –