emr

    -1熱度

    1回答

    我是新來的火花,想知道如果有2個從屬c4.8xlarge節點和1個c4.8x大型主節點,需要在火花作業和AWS中使用多少個內核和執行程序。我嘗試了不同的組合,但不能理解這個概念。 謝謝。

    0熱度

    2回答

    我創建通過雲形成EMR集羣指定AWS EMR安全配置。 我已經從AWS管理控制檯創建安全配置。 我無法找到任何可以在創建雲形成EMR時添加此安全配置的方式。 或者我可以利用lambda函數,但如何在創建集羣后,添加EMR的安全配置? 任何幫助,將不勝感激...

    0熱度

    1回答

    我得到這個內存錯誤在我的減速器: Container is running beyond physical memory limits. Current usage: 6.1 GB of 6 GB physical memory used; 10.8 GB of 30 GB virtual memory used. 所以,是的,有一個物理內存問題有什麼可以通過增加mapreduce.reduce.

    1熱度

    2回答

    我有25個hive腳本,每個腳本有200個hive查詢。我在我的aws emr集羣中使用spark-sql命令運行每個hql。我正在運行所有spark-sql命令並行使用&運算符。我能夠在tez上使用配置單元成功運行相同的hqls。我正在嘗試使用spark-sql來提高性能。但是,使用spark-sql只有2-3個腳本執行正常;剩餘的hqls與連接由對等錯誤設置失敗。我相信這是因爲紗線集羣中缺乏火

    4熱度

    1回答

    是有辦法來設置超時爲步亞馬遜AWS EMR? 我正在EMR上運行批處理Apache Spark作業,如果該作業不在3小時內結束,我希望作業停止併發生超時。 我無法找到一個方法來設置超時在星火未,也不紗線,也不在EMR配置。 感謝您的幫助!

    0熱度

    1回答

    目前我正在嘗試將AWS EMR與Talend集成。 我的目的是運行在AWS EMR的拓藍作業(由拓藍工作室出口)。我已經嘗試「添加步驟作爲自定義jar」,但似乎Talend作業運行通過使用也導出lib文件夾和腳本。 我想與脂肪罐子運行它,但是這個問題表明,我們不能這樣做,因爲缺乏一個功能導出JAR文件爲脂肪罐子。 - >how to export talend job as single fat

    0熱度

    2回答

    我正在使用AWS上的spark 2.1.0運行emr-5.3.1。 當我提交的火花任務與我的JAR(FAT JAR),我發現了以下錯誤: user class threw exception: java.lang.NoSuchMethodError: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/am

    3熱度

    1回答

    Bakground 我們正在從紅移卸載數據到S3,然後加載到一個數據幀像這樣: df = spark.read.csv(path, schema=schema, sep='|') 我們在Spark 2.1.0中使用PySpark和AWS EMR(版本5.4.0)。 問題 我有一個是被讀入PySpark爲CSV一個紅移表。記錄是在這種格式的: url,category1,category2,ca

    0熱度

    1回答

    因此,我在m3.xlarge機器上使用emr-5.4.0,並在頂部添加了250 GB EBS。 與250個GB EBS這種配置m3.xlarge,驅動器被安裝如下: 的/ mnt /:40 GB SSD驅動 /mnt1上/:40 GB SSD驅動 /mnt2 /:250 gb ebs 我檢查了以下hadoop配置,它們如下。 yarn.nodemanager.local-顯示目錄:/ MNT /紗

    0熱度

    1回答

    我試圖打印一個流使用s3作爲源使用電子病歷中的Zeppelin筆記本。 %pyspark from pyspark.streaming import StreamingContext from pyspark.sql import Row, SparkSession ssc = StreamingContext(sc, 45) streams=ssc.textFileStream('s3: