Apache Beam支持多個亞軍後端,包括Apache Spark和Flink。我熟悉Spark/Flink,我正在嘗試查看Beam的批處理優點/缺點。Apache Beam對Spark/Flink進行批處理有什麼好處?
看着Beam word count example,它感覺它與本機的Spark/Flink等價物非常相似,可能稍微有些冗長的語法。
我目前沒有看到選擇Beam作爲Spark/Flink這種任務的好處。目前爲止唯一的觀察結果是:
- 臨:對不同執行後端的抽象。答案:這個抽象的代價是對Spark/Flink中執行的內容的控制較少。
是否有更好的例子來突出梁模型的其他優點/缺點?有沒有關於失控如何影響性能的信息?
請注意,我並不是要求在流式方面存在差異,部分在this question中進行了介紹,並在this article(歸因於Spark 1.X)中進行了總結。