Kafka Connect：如何使用hdfs sink連接器將來自Kafka主題的protobuf數據發送到HDFS？

我有一個製作人正在爲主題製作protobuf消息。我有一個消費者應用程序，它將protobuf消息反序列化。但hdfs sink連接器直接從Kafka主題中獲取消息。 etc/schema-registry/connect-avro-standalone.properties中的鍵和值轉換器將被設置爲？什麼是最好的方法來做到這一點？提前致謝！Kafka Connect：如何使用hdfs sink連接器將來自Kafka主題的protobuf數據發送到HDFS？

來源

2016-11-23 NoName

Kafka Connect旨在將卡夫卡中序列化格式的問題從converters的概念中分離出來。正如您似乎已經發現的那樣，您需要將key.converter和value.converter類調整爲支持protobufs的實現。這些類通常作爲一個普通的Kafka Deserializer實現，然後執行從序列化特定的運行時格式（例如protobufs中的Message）到Kafka Connect的運行時API（它沒有任何關聯的序列化格式 - 它只是一個一組Java類型和一個類來定義模式）。

我不知道現有的實現。實現這一點的主要挑戰是protobufs是自描述的（也就是說，可以在不訪問原始模式的情況下對其進行反序列化），但由於其字段只是整數ID，所以如果沒有以下要求，您可能無法得到有用的模式信息：a）需要特定模式可用於轉換器，例如通過配置（這會使遷移架構更加複雜）或者b）爲您的數據提供模式註冊表服務+封裝格式，使您可以動態查找模式。

來源

2016-12-11 01:00:46

我有一個勉強工作的實現。我使用'avro-protobuf'擴展了'AvroConter'類的'Deserializer'。據我所知，Kafka Connect希望限制支持的格式數量，即JSON和Avro，因此我不會按原樣發佈它。然後，我不想複製整個'avro-converter'並將其重命名爲'protobuf-converter'。什麼是貢獻該項目的最佳方法？ –

Kafka Connect絕對不希望限制支持的格式數量。恰恰相反，我們包括轉換器，併爲通用連接器提供數據API，以支持不同序列化格式的插入。 protobuf的實現絕對有價值，我建議發佈它。儘管我們希望獲得相當完整的實現，但我們願意將其與AvroConverter一起納入我們的存儲庫。我看到的最大問題是，爲了獲得有用的實現，我期望您需要類似於模式註冊表的東西。 –

Kafka Connect：如何使用hdfs sink連接器將來自Kafka主題的protobuf數據發送到HDFS？

回答

相關問題