amazon-emr

    0熱度

    1回答

    是否可以使用Apache Flink附帶的BucketingSink將數據寫入s3? 我已經試過了URL的幾種組合,但我似乎不能與S3 例如取得任何進展s3:// bucket/path/to/folder 我可以在部署到EMR 5.4.0而不是s3時寫入hdfs。 該文檔沒有提及S3作爲潛在的集成,但我假設它是本機支持的。 https://ci.apache.org/projects/flink

    1熱度

    1回答

    嗨,我剛剛想出了一個奇怪的任務: 我運行一個java-MapReduce作業與EMR。 數據約爲1T,我使用了1個主站+8個從站。 所有的實例都是r2.2xlarge。 起初,一切都看起來不錯象下面這樣: INFO mapreduce.Job: map 0% reduce 0% INFO mapreduce.Job: map 1% reduce 0% INFO mapreduce.Job: m

    0熱度

    1回答

    在我mrjob.conf我做了額外的音量設置: Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 Instances.InstanceGroups.member.2.EbsConfiguration.EbsB

    4熱度

    1回答

    是有辦法來設置超時爲步亞馬遜AWS EMR? 我正在EMR上運行批處理Apache Spark作業,如果該作業不在3小時內結束,我希望作業停止併發生超時。 我無法找到一個方法來設置超時在星火未,也不紗線,也不在EMR配置。 感謝您的幫助!

    0熱度

    1回答

    我已經產生了一個EMR集羣,其中包含一個EMR步驟,用於將文件從S3複製到HDFS,反之亦然使用s3-dist-cp。 這個羣集是一個隨需應變的羣集,所以我們沒有跟蹤ip。 第一個電子病歷步驟是: hadoop fs -mkdir /input - 此步驟已成功完成。 第二EMR步驟是: 以下是我使用的命令: s3-dist-cp --s3Endpoint=s3.amazonaws.com --s

    0熱度

    2回答

    我已經在自己的Linux服務器上使用Apache Spark和PostgreSQL JDBC驅動程序,但沒有問題,但我無法使其工作在Amazon EMR上以同樣的方式執行。 我先下載Postgres的驅動程序和設置我pyspark類路徑是這樣的:Adding postgresql jar though spark-submit on amazon EMR 我執行在Amazon EMR實例設置了Sp

    0熱度

    2回答

    我創建了一個火花簇(學習所以沒有創建高存儲器-CPU羣)被1個主節點和2核心利用下面配置 萬事達運行執行人:Running1m4.large(2 Core,8GB) Core:Running2c4.large(2核,3.5GB) Hive 2.1.1,Pig 0.16.0,Hue 3.11.0,Spark 2.1.0,Sqoop 1.4.6,HBase 1.3.0 當pyspark運行時出現錯誤

    0熱度

    2回答

    我正在使用AWS上的spark 2.1.0運行emr-5.3.1。 當我提交的火花任務與我的JAR(FAT JAR),我發現了以下錯誤: user class threw exception: java.lang.NoSuchMethodError: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/am

    0熱度

    1回答

    因此,我在m3.xlarge機器上使用emr-5.4.0,並在頂部添加了250 GB EBS。 與250個GB EBS這種配置m3.xlarge,驅動器被安裝如下: 的/ mnt /:40 GB SSD驅動 /mnt1上/:40 GB SSD驅動 /mnt2 /:250 gb ebs 我檢查了以下hadoop配置,它們如下。 yarn.nodemanager.local-顯示目錄:/ MNT /紗

    0熱度

    1回答

    我們希望使用AWS數據管道來自動化數據提取過程。在我們的提取過程中,我們主要將CSV文件複製到S3存儲桶中,並在其上運行Hive查詢,以查找超過100個不同的表。 我們想創建一個管道,我們將能夠處理所有的100個表。 我想知道我們是否可以同時運行多個Hive活動和S3複製活動?如果管道活動串行或並行運行,我無法在AWS文檔中找到此信息。