我在AWS設置ETL管道如下ETL管道在AWS與S3作爲datalake如何處理增量更新
input_rawdata - > S3 - >拉姆達 - >觸發火花ETL(通過AWS膠)腳本 - >輸出(s3,parquet文件)
我的問題是讓我們假設上面是數據的初始負載,我該如何設置運行每天(或每小時)增加新行或更新現有記錄的增量批次
a。)我如何繼續添加到相同的s3鑲木地板文件。以便隨後的presto db查詢產生最新的數據。
b。)如何處理重複記錄獲取查詢的最新時間戳。
在火花腳本中,我是否需要創建Hive外部表,其源代碼爲s3並在presto db中使用?
感謝您的任何輸入。