2017-01-24 71 views
-1

據我所知,Spark可以使用Spark Streaming來分析流。 卡夫卡可以接收來自多個來源的數據。 我不明白的是,如果我有一個Kafka集羣接收來自多個數據源的數據,數據是否會通過Spark Streaming運行發送到數據庫?或者在應用程序服務器上運行Spark Streaming?Spark Streaming在哪裏運行?

回答

1

如果您使用Spark Streaming,則需要設置Spark羣集,然後將Spark Streaming作業提交給羣集。因此,您將不得不2個集羣:Kafka + Spark(或者實際上是3個,因爲您還需要Kafka的Zookeeper集羣)。

+0

所以如果我有一個火花簇,火花工作正在應用服務器上運行?並以mapreduce風格分配給spark集羣? – Khan

+1

http://spark.apache.org/docs/latest/cluster-overview.html –