-1
據我所知,Spark可以使用Spark Streaming來分析流。 卡夫卡可以接收來自多個來源的數據。 我不明白的是,如果我有一個Kafka集羣接收來自多個數據源的數據,數據是否會通過Spark Streaming運行發送到數據庫?或者在應用程序服務器上運行Spark Streaming?Spark Streaming在哪裏運行?
據我所知,Spark可以使用Spark Streaming來分析流。 卡夫卡可以接收來自多個來源的數據。 我不明白的是,如果我有一個Kafka集羣接收來自多個數據源的數據,數據是否會通過Spark Streaming運行發送到數據庫?或者在應用程序服務器上運行Spark Streaming?Spark Streaming在哪裏運行?
如果您使用Spark Streaming,則需要設置Spark羣集,然後將Spark Streaming作業提交給羣集。因此,您將不得不2個集羣:Kafka + Spark(或者實際上是3個,因爲您還需要Kafka的Zookeeper集羣)。
所以如果我有一個火花簇,火花工作正在應用服務器上運行?並以mapreduce風格分配給spark集羣? – Khan
http://spark.apache.org/docs/latest/cluster-overview.html –