回答

3

您可以使用AWS Pipeline。有兩個基本模板,一個用於將RDS表移至S3,另一個用於將數據從S3導入DynamoDB。您可以使用這兩個模板創建自己的管道。

問候

+0

謝謝,如果我們可以使用這些模板,那將是完美的,但我們有** 2個mySQL表**,我們希望將其存儲爲** 1個單獨的DynamoDB表**。這些模板有用於處理單個表格的選項,但不包括2.是否有解決此問題的方法,這不涉及預處理? (這將是我們的最後手段 - 將2個mySQL表加入一個mySQL表,因爲它需要很多時間和空間) –

+1

嗨Ankit。在這種情況下,您需要在管道中包含EMR集羣。工作流程應該是:將兩個表格以分開的csv移動到S3,EMR集羣將合併/連接表並將輸出轉到S3,最後將數據導入到DynamoDB。在這裏,您需要爲合併/合併作業開發一點點。使用Hadoop命令可輕鬆導入/導出到EMR中的S3。 – AGL

3

有一點要考慮這樣的大數據是迪納摩是否是最佳的選擇。

如果這是統計數據或其他「大數據」,請查看AWS RedShift,它可能更適合您的情況。

+0

我們需要切換到非規格化的無模式表以適應某些用例,因此對於我們來說,Dynamo是更好的選擇。 –

+0

@AnkitKapur - 如果你可以爲你的數據選擇一個好的散列鍵,那麼Dynamo是唯一不錯的選擇!請閱讀文檔,並確保您瞭解Dynamo的限制和最佳做法,然後再使用該路線。 –

0

我們已經做了類似的工作,可能有更好的策略來做到這一點。在源實例中使用AWS DMS和一些準備表。

它涉及到兩個步驟:

  1. 你建立一個源代碼實例中新表與dynamodb的模式匹配,到底是哪。如將多個表合併爲一個等。

  2. 設置DMS任務,準備表作爲源,DynamoDB作爲目標。由於準備表和目標模式現在相匹配,所以從這一點來看,它應該是非常簡單的。

希望幫助!祝你好運!!