Avro Records - > Kafka - > Kafka Connect Sink - > Amazon S3 Storage。冪等？

因此，我的僱主通過卡夫卡的Avro消息。我們希望將所有郵件歸檔到Amazon S3。理想情況下，他們將一天被存儲在S3樣目錄，並使用通路結構是這樣的：Avro Records - > Kafka - > Kafka Connect Sink - > Amazon S3 Storage。冪等？

S3：//my-bucket/data/day=2016-03-04/data.avro

如何做到這一點有沒有參考或最佳實踐？

我的一個問題是冪等性：如何提供寫冪等性，其中記錄可能會多次發送到我的接收器作家，但只能存儲在S3上一次。

我是否正確，我需要冪等性？如果我實現了一個簡單的追加（非冪等），Kafka Connect可能會發送兩次相同的記錄，並且它們可能會冗餘存儲？

2016-06-07 clay

AFAIK，你不能追加到S3對象（文件）：https://news.ycombinator.com/item?id=10746969 - 除非有非常最近改變了....

你也不想保留單獨寫每個事件到S3，而是做批量 - 出於明顯的性能原因。

所以，我們做事的方式 - 是使用卡桑德拉作爲中間存儲來收集一些時間（時間片）事件 - 儲存他們被事件分組倍，不處理時間 - 然後寫那些定期觸及到S3的時間片。一個時間片將被存儲到一個S3對象中 - 時間片信息是文件名的一部分。

如果/當更多的事件發生在某些過去的時間片上 - 它被添加到Cassandra的時間片表中，並且最終觸發對S3的重寫 - 這將再次獲得該時間片的所有事件並寫入S3具有相同的文件名，有效覆蓋現有文件（如果有的話）。

您必須決定您想要在卡桑德拉保留數據多長時間 - 根據您的管道工作方式以及傳入事件的「舊」情況。

這就是我們如何實現冪等性。這可能不是最有效的方式 - 但它對我們來說效果很好，因爲我們有非常高的事件處理量和速度，而Cassandra非常適合快速寫入。

我很想聽聽其他人如何解決類似的問題！

2016-06-09 17:21:36 Marina

爲什麼不使用類似secor的東西？它也爲一次交付提供了一些保證。

你也可以考慮基於「kafka connect」的實現，如streamx。

2016-07-08 19:38:30 Cheeko

從描述，它看起來像你正在尋找的是 1）Avro的數據寫入到S3

2）數據同時寫入到S3

3分區）恰好一次支持。

Qubole StreamX支持豐富多樣的格式轉換，其中包括數據分區和其中之一。而且，我們正在準備一次即將推出的產品。

secor正在被棄用（在他們對谷歌組的反應之一中提到），它也不支持avro。

所以你可以使用qubole streamx開始。

2017-11-16 08:14:39 Ashish

回答