amazon-data-pipeline

    1熱度

    1回答

    我創建了一個數據管道,用於從S3抽取數據並將其推入DynamoDB。 管道開始運行成功。 我已將寫入容量設置爲20000臺,幾小時後寫入數量減少了一半,現在它仍以寫入容量3臺運行。 (寫入容量沒有改變,管道在閾值開始後下降3個單位,並繼續以這樣的速度運行) 什麼能下降的原因是什麼?有沒有辦法讓它更快? 謝謝。

    2熱度

    2回答

    我遇到了AWS數據管道模板以將數據備份到S3。但是,我不想備份整個表格。我只想保留過去7天發生的變化的快照。 我認爲解決這個問題的方法是在我的last_updated_date列的表上使用GSI來掃描已更改的記錄。現在,是否可以使用AWS Datapipelines來實現結果?

    1熱度

    1回答

    請問有人可以幫忙嗎?我正在努力做到這一點;我無法從AWS控制檯內的數據管道配置中使用Spark安裝創建EMR環境。我選擇'在EMR集羣上運行作業',EMR集羣始終使用Pig和Hive作爲默認值創建,而不是Spark。 我明白,我可以選擇的Spark作爲引導行動,在這裏說,但是當我做我得到這個消息: 名稱:xxx.xxxxxxx.processing.dp使用模板 構建:以彈性工作運行MapRedu

    0熱度

    1回答

    我正在接管AWS上的一組數據管道。它們都是使用AWS圖形編輯器工具構建的。流水線變得越來越複雜,我的目標是將它們轉移到代碼並使其版本化。我們是一個紅寶石商店,除了AWS紅寶石外,還有其他工具或框架可以用來做這件事嗎?我可以遵循的任何資源,博客,文檔都會有幫助並且易於遵循(aws文檔可能會更好)。

    1熱度

    1回答

    我在S3中獲得了中等大小的文件(我從EMR中獲得了這些文件),並且每行都有一個密鑰和對象,我想將它們放在單獨的存儲桶中。 無論如何要實現這個使用數據管道?

    0熱度

    1回答

    我有存儲在Redshift中的粒度數據。我想要定期創建一個聚合表。我正在尋求使用AWS Data Pipeline來執行此操作。 比方說,我有一個所有航班的表。我想要生成一張機場表格以及來自那裏的航班數量。但是因爲這個表格很大(也許我想加入其他表格的內容),所以我決定從它中構建一個派生表格。 我設置了我的數據管道。它看起來像這樣 它是運行這個SQL在Create Table Sql領域 CREAT

    1熱度

    1回答

    我有一個貶值的發電機表,我需要將它合併到另一個表。兩個表格的模式略有不同,因此我需要在每個項目上做一些小的工作,然後才能將項目放入尚存表格中。現在 ,我知道,我總是可以創建一個寫一個批處理的這些記錄必須清楚交代另一拉姆達,可以把記錄尚存表看了室壁運動流的拉姆達,但這似乎缺憾給我。 DataPipeline似乎是一個更好的解決方案,但我不確定在移動到新表之前是否可以更改項目。與EMR一樣。 任何建議

    0熱度

    1回答

    我想知道是否有任何AWS服務或項目允許我們在代碼中使用AWS Lambdas配置數據流水線。我正在尋找像下面這樣的東西。假設有一個庫稱爲pipeline from pipeline import connect, s3, lambda, deploy p = connect(s3('input-bucket/prefix'), lambda(myPythonFunc, depend

    3熱度

    1回答

    當我嘗試創建這些屬性的EMRcluster資源: 電子病歷管理的主要安全組ID EMR管理從安全組ID 我有這樣的錯誤:終止有錯誤。如果使用自定義安全性,則還必須指定ServiceAccessSecurityGroup

    1熱度

    2回答

    我有一堆我想要複製到Redshift(使用AWS Data Pipelines和RedshiftCopyActivity)的s3文件。挑戰在於我的s3文件只有一列,而不是目標Redshift表。 表本身具有「id」列 - 一個IDENTITY列,其值在插入期間自動生成。 我知道我應該/可以使用RedSiftCopyActivity的transformSql屬性,但我在構造有用的查詢時失敗。執行總是