2017-04-16 120 views
2

我明白了,Airflow中的許多操作員在將數據上載到目標系統之前將數據存儲在本地。這意味着工作人員節點正在做大量的工作,以防萬一數據量巨大。Apache AirFlow如何實現可擴展性?

的Airbnb(公司誰開源氣流)說,早在2015年,他們曾在5000個服務工作氣流集羣只有6個節點。

我在這裏錯過了什麼嗎?

請幫助理解。

回答

2

Apache的氣流的主要目的是任務調度和監視。它不是作爲通用數據處理引擎設計的。相比於Apache Spark或Apache Hive,可以認爲它是Oozie的替代品。

儘管氣流可以擴展它的工人(與Mesos,RabbitMQ的/芹菜)繁重仍然由分析系統執行的。例如,Airflow可以管理Spark任務和德魯伊查詢,處理更改等。