如何使用Redshift數據庫進行轉換和報告？

我在我的redshift數據庫中有3個表格，數據來自S3的3個不同的csv文件，每隔幾秒鐘。一張表有30億條記錄，另外2條記錄有1億條記錄。對於近實時報告目的，我必須將此表合併到一個表中。我如何在紅移中實現這一點？如何使用Redshift數據庫進行轉換和報告？

亞馬遜紅移近實時數據加載

我會說，第一步是要考慮是否紅移是你正在考慮工作量的最佳平臺。 Redshift不是流數據的最佳平臺。

Redshift的架構比流式插入更適合批量插入。「提交」在Redshift中是「昂貴的」。

如果這些操作將與流數據競爭資源，則需要考慮VACUUM和ANALYZE的性能影響。

根據整套要求和工作量，在您的項目中使用Redshift可能仍然有意義，但請記住，爲了使用Redshift，您將圍繞它進行工程設計，並且可能會將工作量從「近實時」到微量批處理架構。

爲了總結一下：

2016-08-23 16:58:57 BigDataKid

回答