因此,我的僱主通過卡夫卡的Avro消息。我們希望將所有郵件歸檔到Amazon S3。理想情況下,他們將一天被存儲在S3樣目錄,並使用通路結構是這樣的:Avro Records - > Kafka - > Kafka Connect Sink - > Amazon S3 Storage。冪等?
S3://my-bucket/data/day=2016-03-04/data.avro
如何做到這一點有沒有參考或最佳實踐?
我的一個問題是冪等性:如何提供寫冪等性,其中記錄可能會多次發送到我的接收器作家,但只能存儲在S3上一次。
我是否正確,我需要冪等性?如果我實現了一個簡單的追加(非冪等),Kafka Connect可能會發送兩次相同的記錄,並且它們可能會冗餘存儲?