2015-08-28 104 views
1

我正在尋找可在AWS計劃任務/作業將查詢外部HTTP服務器,最好的工具。外部服務器回覆XML文件,以便理想地將這些文件存儲在S3上然後處理,並將拋光的數據移動到Redshift。我正在研究AWS Data Pipeline和Amazon EMR,但他們主要關注在AWS中移動數據。 有什麼建議嗎? 感謝導入XML數據到AWS

回答

0

Amazon簡單工作流服務(SWF)可以是溶液。我確信SWF可以做到這一點,但有點沉重。數據管道需要更多編程。

這裏是SWF &數據管道之間的不同:

問:如何爲AWS數據管道從亞馬遜的簡單工作流服務有什麼不同?

雖然這兩個服務都提供執行跟蹤,重試和異常處理功能以及運行任意操作的能力,但AWS Data Pipeline專門設計用於簡化大多數數據驅動工作流程中常見的特定步驟 - 尤其是,在他們的輸入數據滿足特定的準備就緒標準之後執行活動,在不同的數據存儲之間容易地複製數據以及調度鏈式變換。這種高度專注的重點意味着其工作流定義可以快速創建,無需代碼或編程知識。 Ref.

或者,你可以使用SWF創建時間表,然後把處理邏輯AWS LAMBDA。使用SWF觸發器AWS Lambda功能會更簡單。

0

如果您使用的是AWS DataPipeline,您可以編寫一個ShellCommandActivity(python腳本或任何cust exe),它可以從目標服務器獲取XML,將其粘貼到CSV並將其保存到s3,然後可以使用RedshiftCopyActivity指示Redshift從該位置加載文件。