1

我正在嘗試使用Kafka進行Spark SQL結構流式傳輸。我正在爲kafka選項尋找這個必需的選項subscribePattern [Java正則表達式字符串]。顯然只有3個值是可能的:「轉讓,‘訂閱’或‘subscribePattern’Spark SQL:使用Kafka subscribepattern選項進行流式傳輸

當我GOOGLE了這個選項,信息最有用的部分想出瞭如下: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-streaming/spark-streaming-kafka-ConsumerStrategy.html

任何人都可以放對於我來說,這三個選項中最明顯的區別是什麼?對於Spark SQL來說,有什麼不同的行爲呢?

回答

1

然而,對於卡夫卡消費者,我並不熟悉Spark,但有三種選擇:

  1. 賦值:手動分配主題分區(即,您可以執行任何所需的分區分配)。這將禁用使用者組管理,因此,如果您有多個使用者並且想要平衡負載以便自己照顧不要分配兩次分區。
  2. 訂閱:指定一組您想要讀取的主題。消費者組管理將分區的實際分配(即,如果組中有多個消費者,分區將分佈在組內的所有消費者)
  3. 模式:類似於(2),但是您指定正則表達式並訂閱所有與正則表達式匹配的主題
相關問題