我有一個存儲在DynamoDB中的每日日誌表(每天大約有10m輸入)。AWS:從dynamodb到紅移的數據轉換
爲了做分析,我需要它轉移到Redshift。此外,我需要通過解析一個字符串(nvarchar(250))來創建新的列。我的想法是使用COPY命令並將數據從DynamoDB傳輸到Redshift,然後使用UDF創建新列。
這種方法的問題是,它需要花費很多時間來完成(這兩個部分),並且它保持失敗(查詢的狀態爲ABORTED):我在一個複製命令中傳輸大約10天的數據。
您認爲應該採取更好的方法:使用數據管道還是EMR等一些亞馬遜服務?或做同樣的事情,但組織不同?
謝謝你的回答!一個問題:您認爲數據管道可用於創建新列,同時將數據從dynamodb傳輸到S3,或者應該先傳輸數據然後再轉換(以紅移方式)? –
沒有數據管道不支持此功能。爲什麼你不能用你需要的數據寫s3文件?如果你想從dynamo db中完成。去aws膠水或使用發電機數據流包裝和處理lambda的記錄和寫入s3(但我強烈不同意這種解決方案的長期/成本/性能因素) –
據我所見,aws膠水(我想過它也是)只在一個地區有效:us east(n。virginia)和我的數據在另一個地區...... –