我有一個Web應用程序需要發送有關其使用情況的報告,我想使用Amazon RedShift作爲此目的的數據倉庫, 我應該如何收集數據 ?將數據(增量式)加載到Amazon Redshift,S3和DynamoDB中vs插入
每次,用戶與我的應用程序進行交互,我想報告..所以我應該什麼時候寫文件到S3?和多少? 我的意思是: - 如果不立即發送信息,那麼我可能會因連接丟失或系統中的某個錯誤而丟失它,因爲它已被收集並準備好發送到S3 .. 。 - 如果我在每次用戶交互時將文件寫入S3,我最終會得到數百個文件(每個文件上的數據都很少),需要在複製到RedShift後進行管理,排序和刪除。似乎不是一個好的解決方案。
我在想什麼?我應該使用DynamoDB嗎?我應該使用簡單的插入到Redshift中嗎?
如果我確實需要將數據寫入DynamoDB,我應該在複製後刪除保留表。最佳實踐是什麼?
在任何情況下,避免RedShift中數據重複的最佳做法是什麼?
感謝幫助!
http://stackoverflow.com/questions/38300416/how-to-load-files-from-zip-files-present-in-s3-to-redshift-using-copy-command – AWSDeveloper