我有一些用例,我想更加澄清,關於卡夫卡主題分區 - >火花流資源利用率。卡夫卡主題分區火花流
我使用spark獨立模式,所以只有設置是「執行者總數」和「執行者內存」。據我所知,根據文檔,將並行性引入Spark流的方式是使用分區的Kafka主題 - >當我使用spark-kafka直接流集成時,RDD將具有與kafka相同數量的分區。
因此,如果我在主題中有1個分區,並且有1個執行程序核心,那麼這個核心將依次從卡夫卡讀取。
,如果我有什麼影響:
2分區的話題,只有1執行人核心是什麼?這個核心是從一個分區開始,然後是從第二個分區開始讀取的,所以在分割這個主題時沒有任何好處?
主題中的2個分區和2個內核?然後1執行器核心從1分區讀取,第二個核心從第二個分區讀取?
1個kafka分區和2個executor核心?
謝謝。
此外,我建議你看看這個項目:https://github.com/dibbhatt/kafka-spark-consumer,它實現了一個更好的工作 - 分區分區分佈。 – Vale