0

所以我想將整個DynamoDB錶轉儲到S3。這tutorial給出了一個很好的解釋如何做到這一點。給它一個測試,它的工作...偉大的QUICKLY將動態數據庫表導出到S3

但是現在我想用它在我的生產數據是相當大的(> 100GB)。我希望它能夠快速運行。很顯然,我的DynamoDB表的讀吞吐量是一個因素,但是有沒有辦法確保數據管道盡其所能。我對這些並不是很熟悉,安裝後的架構視圖中有實例類型和實例數的區域,但會增加這些減少我的管道時間?除了指定要使用的表的吞吐量之外,本教程沒有提及速度的任何信息。它會基於此自動縮放嗎?

回答

0

該模板基於datapipeline團隊在gihub上的開源示例。

您所指的模板是here

如果您看一下管道定義,您會發現導出是通過map-reduce作業完成的。出口工作的可擴展性應該由此來處理。

如果您需要了解EMR如何與DynamoDB配合使用的更多細節,您可以在here找到它。如果增加實例的數量,則需要相應地調整表的吞吐量以增加導出的並行性。