2017-05-29 18 views
0

1,基於下面的描述,Storm和Spark Streaming都處理批量或小批量/微批量的消息/元組嗎? https://storm.apache.org/releases/2.0.0-SNAPSHOT/Trident-tutorial.html處理元組消息時,Storm和Spark Streaming之間的延遲有什麼區別?

2,如果上述問題的答案是肯定的,這意味着兩種技術在處理消息/元組時都有延遲?如果是這樣的話,爲什麼我經常聽說Storm會比Spark Streaming更好,比如下面的文章? https://www.ericsson.com/research-blog/data-knowledge/apache-storm-vs-spark-streaming/

3,從三叉戟教程它描述了: 「一般這些小批量的規模將是數千或數百萬元組的順序,根據您輸入的吞吐量。」 那麼小批量的真正尺寸是多少?數千或數百萬個元組?如果是,Storm如何保持這種短暫的延遲?

https://storm.apache.org/releases/2.0.0-SNAPSHOT/Trident-tutorial.html

回答

1

風暴的核心API嘗試,因爲它到達處理事件。它是一個時間處理模型的事件,可能會導致非常低的延遲。

Storm's Trident是一款建立在風暴核心apis之上的微型配料模型,用於提供一次性保證。 Spark流也基於微量批處理,並且在延遲方面與三叉戟相當。

所以如果有人正在尋找極低的延遲處理風暴的核心api將是路要走。然而,這隻保證至少一次處理,並且在失敗的情況下接收重複事件的機會並且應用程序預期處理這個事件。

看看yahoo [1]的流媒體基準測試,可以提供更多的見解。

[1] https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at

+0

謝謝您的澄清。 –

相關問題