如何加入兩個Kafka流，每個都有多個分割？

我有兩個Kafka流，request和event每個分區在一個公共字段requestId（最後兩位數字）。我想加入這兩個流並寫入HDFS或本地filesystem？如何編寫一個高效的consumer，在加入兩個streams時只考慮相關的partitions？如何加入兩個Kafka流，每個都有多個分割？

來源

2017-01-18 Rubbal

您應該使用Kafka's Streams API，Apache Kafka的流處理庫，而不是手寫消費者。要將數據寫入HDFS，您應該使用Kafka Connect。

對於做加盟，看看這樣一個問題：How to manage Kafka KStream to Kstream windowed join?

還檢查了匯合的文檔關於Kafka Streams和Kafka Connect上手。如果您有進一步的問題，請開始後續問題（閱讀手冊後:)）

來源

2017-01-18 17:22:17

謝謝。看起來正是我需要的東西！ – Rubbal

@ matthias-j-sax我閱讀手冊，這兩個庫僅與Confluent的版本兼容（感謝rationalSring指出它）。使用融合的版本有什麼缺點嗎？ – Rubbal

這是不正確的。合流，只需重新包裝Apache Kafka，並且與ASF版本100％兼容。只有HDFS連接器不是Apache Kafka的一部分，但您可以從confluent.io/product/connectors下載並使用ASF版本。由於Confluent提供Confluent開源代碼，並且代碼與ASF Kafka 100％兼容，所以使用Confluent的優惠沒有缺點 - 只有當您獲得更大的軟件堆棧時纔有優勢。 –

卡夫卡流與Kafka連接（HDFS）是一個簡單的解決方案。但是，必須指出的是，Kafka Connect的HDFS連接器僅適用於Confluent的Kafka版本。 Apache Kafka Connect只附帶一個文件編寫器，而不是HDFS編寫器。

來源

2017-01-19 23:50:09

如何使用Flume從Kafka寫入HDFS？ – Rubbal

這並非完全正確：即使您使用vanilla Apache Kafka，您也可以下載Confluent的HDFS連接器https://www.confluent.io/product/connectors/並使用它。此外，沒有「合流版卡夫卡」 - 它只是重新包裝，但與Apache Kafka 100％兼容（它可能包含額外的bug修復 - 但很少發生）。 –

@Rubbal，我沒有使用flume來達到這個目的。 –

如何加入兩個Kafka流，每個都有多個分割？

回答

相關問題