我們有一個要求,即每當將廣告提供給最終用戶時,我們都會在DynamoDB表中記錄事件。在dynamoDB表中,每秒有超過250次寫入此表。如何在DynamoDB流中使用Apache Streaming
我們希望彙總這些數據並將其移至Redshift進行分析。
DynamoDB流將被調用,每個插入在表中我想。如何將DynamoDB流提供給某種批處理,然後處理這些批處理。圍繞這種用例有什麼最佳實踐嗎?
我正在閱讀有關Apache Spark的內容,似乎和Apache Spark一樣,我們可以做這樣的聚合。但是apache spark流不讀取DynamoDB流。
任何幫助或指針表示讚賞。
由於
嗨伊萬,謝謝你的迴應。我的桌子很大,包含超過1.5億行。這就是我不想使用redshift提供的複製命令加載整個dynamoDB表的原因。想要做一個從dynamoDB到redshift的增量拷貝,並且在這樣做的時候,彙總數據。 –
然後流處理是一個真正可行的選擇。使用Apache Flink/Spark和Kinesis適配器來完成這個技巧。 –
我發現這個https://github.com/awslabs/dynamodb-streams-kinesis-adapter將dynamoDB流轉換爲Kinesis流。我如何安排這個應用程序? Cron在EC2上工作? –