amazon-data-pipeline

0熱度

1回答

AWS Athena JDBC Jar在Datapipeline中的用法拋出Java版本錯誤

我想在運行管道時遇到「UnsupportedClassVersionError」錯誤。我有點信息從博客（http://javarevisited.blogspot.com/2015/05/fixing-unsupported-majorminor-version.html），但一部分我不清楚我的情況是雅典娜類具有內置的jdk：1.8.0_60 我的系統的Java版本：1.8.0_71 所以我不

1熱度

2回答

通過AWS數據管道運行python腳本

我使用AWS Data Pipelines運行夜間SQL查詢，該查詢爲彙總統計信息填充表。用戶界面有點時髦，但最終我找到了工作。現在我想用python腳本做類似的事情。我有一個文件，我每天早上在我的筆記本電腦上運行（forecast_rev.py），但當然這意味着我必須打開我的筆記本電腦，並每天踢這個。當然，我可以安排一條管道做同樣的事情，從而放假休假而不在乎。對於我而言，我無法找到關於此的教

0熱度

1回答

aws datapipeline start stop ec2 instances

這個例子：https://aws.amazon.com/premiumsupport/knowledge-center/stop-start-ec2-instances/ 似乎沒有工作。我遵循這個例子，管道總是被取消。沒有創建日誌，我確實設置了日誌記錄。唯一的「錯誤信息」，我能找到的是。錯誤消息無法爲@ Ec2Instance_2017-06-07T09：58：49創建資源，原因是：未找到默認V

0熱度

3回答

Docker與AWS持續集成

我目前正在嘗試使用CodePipeline自動化我們的開發過程。我的碼頭應用程序從Source（Github） - > Builds（AWS CodeBuild） - > Deploy中獲取。在最終部署過程中，我無法修改我的任務定義並重新啓動羣集任務。我知道我需要一個CloudFormation模板來執行這些操作，但沒有太多關於如何使用CloudFormation完成部署過程的文檔（修改我的任務定

1熱度

1回答

從DynamoDB表到另一個DynamoDB表的數據傳輸

我在DynamoDB中有一個大小爲15 GB的表。現在，我需要將一些基於時間戳（以db爲單位）的數據傳輸到另一個DynamoDB。這裏最有效的選擇是什麼？一）轉讓給S3，與大熊貓或好歹過程，並把在其他表（數據是huge.i覺得這可能需要大量的時間） b）通過DataPipeLine（讀了很多，但不認爲我們可以把查詢放在那裏） c）通過EMR和Hive（這似乎是最好的選擇，但是可以通過pytho

3熱度

1回答

使用Google DataFlow/Apache Beam並行化圖像處理或爬行任務是否合理？

我正在考慮谷歌的數據流作爲運行的管道，涉及到類似步驟的選項：從網上下載圖像; 處理圖像。我喜歡DataFlow管理完成作業所需的虛擬機的生命週期，所以我不需要自己啓動或停止它們，但我遇到的所有示例都將它用於數據挖掘類型的任務。我不知道它是否是其他批處理任務（如圖像處理和爬網）的可行選項。

0熱度

1回答

如何使用AWS數據管道並行運行多個Hive活動？

我們希望使用AWS數據管道來自動化數據提取過程。在我們的提取過程中，我們主要將CSV文件複製到S3存儲桶中，並在其上運行Hive查詢，以查找超過100個不同的表。我們想創建一個管道，我們將能夠處理所有的100個表。我想知道我們是否可以同時運行多個Hive活動和S3複製活動？如果管道活動串行或並行運行，我無法在AWS文檔中找到此信息。

1熱度

1回答

如何在現有的EMR集羣上運行EmrActivity？

有沒有辦法在現有集羣上的AWS Data Pipeline中運行EmrActivity？我們目前正在使用數據管道來使用EmrCluster和EmrActivity在AWS EMR中運行作業，但我們希望所有管道都在同一個羣集上運行。我嘗試閱讀文檔並在架構師中建立管道，但我似乎無法找到一種方法去做任何事情，但創建一個集羣並在其上運行作業。似乎沒有辦法定義使用現有集羣的新管道。如果有我該怎麼做？我們目前

1熱度

1回答

AWS數據管道備份RDS PSQL數據到S3

我嘗試使用AWS DATA Pipeline將數據從PSQL傳輸到S3，但是由於內存問題，我的活動失敗。我得到Java堆空間錯誤什麼是多種解決方案，通過它我可以將數據從psql表（25 Gb）傳輸到S3。正在推出高內存機器的唯一選擇？ Ronak

5熱度

1回答

使用Mxnet在AWS中失敗的Hadoop流作業Emr

我已經在AWS datapipeline中設置了emr步驟。 step命令是這樣的： /usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file