2012-05-17 45 views
1

我想我有一個在this thread問過類似的問題,但我會盡量更具體...使用AWS EMR週期性處理數據

什麼是使用AWS週期性處理數據的最佳方式。例如,我想處理一些每分鐘彙總到S3中的報告。是否最好的方法是通過腳本每分鐘向現有作業添加一個步驟?

回答

2

好了,現在我會寫一個腳本:

  • 獲取作業流程細節從AWS
  • 如果作業處於等待狀態的 - 增加一個新的臺階,以工作
  • 由於我正在使用aws PHP AmazonEMR,我將添加一些代碼來處理最大256個步長的 (例如,使用相同的 參數創建新的作業流程,如果我有200多個 步驟,則終止現有的作業流程)。

一次我的代碼準備好,後來有一次我看到它在生產如何保持幾個星期

我會更新這個線程
+0

它在生產中是如何進行的?我看到它已經有幾年了。只是問問。 :) – siliconsenthil

1

我會用行動引導到安裝在cron作業主節點。

0

考慮(新)AWS Lambda服務。您上傳腳本並設置S3桶/文件夾進行監視。每次將新輸入添加到文件夾時都會運行代碼,並根據需要旋轉EC2實例以跟上需求。

https://aws.amazon.com/lambda/