2015-02-10 75 views
0

我是新來的使用AWS,所以任何指針將不勝感激。 我需要使用我們的內部軟件處理大型文件。針對aws的批處理推薦

它需要大約2GB的輸入並生成5GB的輸出,在c3.8xlarge上運行2小時。

現在我手動做,啓動一個實例(按需或點播請求),但現在我想要可靠地自動化和擴展這個處理 - 什麼是良好的框架或平臺或亞馬遜服務來做到這一點? 特別是關於spot-instance會中途終止的可能性(我需要檢測並重新啓動作業)。

我聽說過Python芹菜,但它與亞馬遜和spot-instances一起工作嗎? 或者還有其他推薦的機制嗎?

謝謝!

回答

0

這有點意見爲主,但你可以混合和匹配一些AWS件使它更容易些:

  • 把輸入數據上S3
  • 推的進入一個SQS隊列指示一個作業需要處理很長的可見性超時
  • 在CloudFormation中設置了一個autoscaling policy based on SQS與您的機器描述。
  • 使用UserData/cloudinit設置機器並啓動您的應用程序
  • 編寫代碼接收隊列條目,開始處理,完成處理,然後刪除SQS消息。
  • 代碼應該檢查另一個排隊條目。如果沒有,代碼應該終止機器。