amazon-emr

0熱度

1回答

是否可以使用Apache Flink附帶的BucketingSink將數據寫入s3？我已經試過了URL的幾種組合，但我似乎不能與S3 例如取得任何進展s3：// bucket/path/to/folder 我可以在部署到EMR 5.4.0而不是s3時寫入hdfs。該文檔沒有提及S3作爲潛在的集成，但我假設它是本機支持的。 https://ci.apache.org/projects/flink

1熱度

1回答

Amazon EMR MapReduce進度回滾？

嗨，我剛剛想出了一個奇怪的任務：我運行一個java-MapReduce作業與EMR。數據約爲1T，我使用了1個主站+8個從站。所有的實例都是r2.2xlarge。起初，一切都看起來不錯象下面這樣： INFO mapreduce.Job: map 0% reduce 0% INFO mapreduce.Job: map 1% reduce 0% INFO mapreduce.Job: m

0熱度

1回答

亞馬遜EMR：當連接EBS捲到實例如何確保這個量是用來

在我mrjob.conf我做了額外的音量設置： Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 Instances.InstanceGroups.member.2.EbsConfiguration.EbsB

4熱度

1回答

亞馬遜EMR - 如何設置超時一步

是有辦法來設置超時爲步亞馬遜AWS EMR？我正在EMR上運行批處理Apache Spark作業，如果該作業不在3小時內結束，我希望作業停止併發生超時。我無法找到一個方法來設置超時在星火未，也不紗線，也不在EMR配置。感謝您的幫助！

0熱度

1回答

在運行時在EMR上推導HDFS路徑

我已經產生了一個EMR集羣，其中包含一個EMR步驟，用於將文件從S3複製到HDFS，反之亦然使用s3-dist-cp。這個羣集是一個隨需應變的羣集，所以我們沒有跟蹤ip。第一個電子病歷步驟是： hadoop fs -mkdir /input - 此步驟已成功完成。第二EMR步驟是：以下是我使用的命令： s3-dist-cp --s3Endpoint=s3.amazonaws.com --s

0熱度

2回答

Amazon EMR w/Spark w/Postgres：「無法啓動數據庫'metastore_db'」

我已經在自己的Linux服務器上使用Apache Spark和PostgreSQL JDBC驅動程序，但沒有問題，但我無法使其工作在Amazon EMR上以同樣的方式執行。我先下載Postgres的驅動程序和設置我pyspark類路徑是這樣的：Adding postgresql jar though spark-submit on amazon EMR 我執行在Amazon EMR實例設置了Sp

0熱度

2回答

EMR-5.4.0（火花執行人存儲器分配問題）

我創建了一個火花簇（學習所以沒有創建高存儲器-CPU羣）被1個主節點和2核心利用下面配置萬事達運行執行人：Running1m4.large（2 Core，8GB） Core：Running2c4.large（2核，3.5GB） Hive 2.1.1，Pig 0.16.0，Hue 3.11.0，Spark 2.1.0，Sqoop 1.4.6，HBase 1.3.0 當pyspark運行時出現錯誤

0熱度

2回答

AWS EMR上的Spark 2.1.0的AWS-SDK對齊錯誤？

我正在使用AWS上的spark 2.1.0運行emr-5.3.1。當我提交的火花任務與我的JAR（FAT JAR），我發現了以下錯誤： user class threw exception: java.lang.NoSuchMethodError: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/am

0熱度

1回答

當在具有不同大小的多個驅動器的計算機上使用hadoop時，規模較小的磁盤變滿

因此，我在m3.xlarge機器上使用emr-5.4.0，並在頂部添加了250 GB EBS。與250個GB EBS這種配置m3.xlarge，驅動器被安裝如下：的/ mnt /：40 GB SSD驅動 /mnt1上/：40 GB SSD驅動 /mnt2 /：250 gb ebs 我檢查了以下hadoop配置，它們如下。 yarn.nodemanager.local-顯示目錄：/ MNT /紗

0熱度

1回答

如何使用AWS數據管道並行運行多個Hive活動？

我們希望使用AWS數據管道來自動化數據提取過程。在我們的提取過程中，我們主要將CSV文件複製到S3存儲桶中，並在其上運行Hive查詢，以查找超過100個不同的表。我們想創建一個管道，我們將能夠處理所有的100個表。我想知道我們是否可以同時運行多個Hive活動和S3複製活動？如果管道活動串行或並行運行，我無法在AWS文檔中找到此信息。