請原諒我的無知,如果這個問題可能聽起來很傻這裏的專家觀衆加速比我的數據加載操作
目前按我的使用情況 我存在於AWS紅移表中的數據進行一定的分析,併爲他們節省一在S3桶 csv文件(操作是一些什麼類似Pivot for redshift database) ,之後我更新的數據回紅移分貝使用copy命令200個CSV文件進行分析(這是在python3完成)後
目前是生成的這些保存在200個不同的紅移表中
CSV的數量將繼續隨時間增加 目前,整個過程大約需要50-60分鐘才能完成
25分鐘獲得約200 CSV和S3桶更新它們
25分鐘更新約200 CSV到200個AWS紅移表
CSV的大小而變化,形成幾MB到1GB
我一直在尋找的工具或AWS技術,它可以幫助我減輕我的時間
*附加信息
CSV結構不斷變化.Hence我不得不放棄,再次創建表 這將是一個重複的任務,並會在每一個6小時
紅移可能不是你想要做的事情的好用例。 Redshift的確適用於數據倉庫。我從個人經驗中發現,除非您閱讀了他們的最佳實踐文檔,否則Redshift會遇到一些陷入困境的陷阱。如果你想要像不斷生成報告那樣做,可以看看使用EMR。 – user602525