0
我在AWS S3中有一個每秒更新一次(實際上正在收集新數據)的文件。我想定期將收集的文件移動到本地服務器。以下是我正在考慮的一些事情。使用Gzip將更改文件移動到新服務器
運輸需要在壓縮莫名其妙工作要做,以降低由於成本S3是基於網絡負載的網絡負擔。
將數據移出AWS S3後,需要刪除S3上的數據。換句話說,我的服務器上的數據和AWS上的數據的總和應該是完整的數據集,並且這兩個數據集之間應該有交集。否則,下一次當我們移動數據時,我的服務器上的數據集將會出現重複。
S3上的數據集正在收集所有的時間,並且新數據使用標準英寸附加到文件中。在cron作業上有一些東西正在運行以收集數據。
這是一個僞代碼,顯示瞭如何在S3上構建文件的想法。
* * * * * nohup python collectData.py >> data.txt
這就要求數據傳輸不能破壞管道,否則新的數據會丟失。