Spark Streaming Kafka初始偏移量

我正在使用Java Spark API，對於KafkaUtils.createDirectStream，我想跟蹤偏移量。有一個名爲fromOffset的參數，它記錄了Kafka主題分區中的偏移量。對於第一次運行，我不知道將有多少個分區，那麼如何設置此參數？並且我是否需要在Kafka參數中設置「auto.offset.reset」？如果是，它會影響我的代碼從已知的偏移中恢復嗎？Spark Streaming Kafka初始偏移量

來源

2017-11-10 peng

如果您不知道分區數量，您如何知道每個分區的起始偏移量？ – Mariusz

如果我將「auto.offset.reset」設置爲最小或最大，我仍然可以從每個紅色獲得分區和偏移信息 – peng

你有兩種選擇：

的情況下，你沒有關於partions的任何信息，不提供參數去createDirectStream。 createDirectStream方法有幾個實踐。在這種情況下，或者每個topicPartition將使用最早或最近的偏移量（基於auto.offset.reset param）
您可以使用通常的kafka API找到分區，偏移量。例如外觀How to find the offset range for a topic-partition in Kafka 0.10?

來源

2017-11-11 20:15:23 Natalia

謝謝！反正Kafka 0.8有嗎？因爲0.10是實驗性的API – peng

Spark Streaming Kafka初始偏移量

回答

相關問題