emr

-1熱度

1回答

我是新來的火花，想知道如果有2個從屬c4.8xlarge節點和1個c4.8x大型主節點，需要在火花作業和AWS中使用多少個內核和執行程序。我嘗試了不同的組合，但不能理解這個概念。謝謝。

0熱度

2回答

我創建通過雲形成EMR集羣指定AWS EMR安全配置。我已經從AWS管理控制檯創建安全配置。我無法找到任何可以在創建雲形成EMR時添加此安全配置的方式。或者我可以利用lambda函數，但如何在創建集羣后，添加EMR的安全配置？任何幫助，將不勝感激...

0熱度

1回答

EMR - MapReduce的內存錯誤

我得到這個內存錯誤在我的減速器： Container is running beyond physical memory limits. Current usage: 6.1 GB of 6 GB physical memory used; 10.8 GB of 30 GB virtual memory used. 所以，是的，有一個物理內存問題有什麼可以通過增加mapreduce.reduce.

1熱度

2回答

爲什麼在使用spark-sql並行執行多個Hive腳本時Spark作業失敗？

我有25個hive腳本，每個腳本有200個hive查詢。我在我的aws emr集羣中使用spark-sql命令運行每個hql。我正在運行所有spark-sql命令並行使用&運算符。我能夠在tez上使用配置單元成功運行相同的hqls。我正在嘗試使用spark-sql來提高性能。但是，使用spark-sql只有2-3個腳本執行正常;剩餘的hqls與連接由對等錯誤設置失敗。我相信這是因爲紗線集羣中缺乏火

4熱度

1回答

亞馬遜EMR - 如何設置超時一步

是有辦法來設置超時爲步亞馬遜AWS EMR？我正在EMR上運行批處理Apache Spark作業，如果該作業不在3小時內結束，我希望作業停止併發生超時。我無法找到一個方法來設置超時在星火未，也不紗線，也不在EMR配置。感謝您的幫助！

0熱度

1回答

將Talend工作與Amazon EMR集成有什麼好方法嗎？

目前我正在嘗試將AWS EMR與Talend集成。我的目的是運行在AWS EMR的拓藍作業（由拓藍工作室出口）。我已經嘗試「添加步驟作爲自定義jar」，但似乎Talend作業運行通過使用也導出lib文件夾和腳本。我想與脂肪罐子運行它，但是這個問題表明，我們不能這樣做，因爲缺乏一個功能導出JAR文件爲脂肪罐子。 - >how to export talend job as single fat

0熱度

2回答

AWS EMR上的Spark 2.1.0的AWS-SDK對齊錯誤？

我正在使用AWS上的spark 2.1.0運行emr-5.3.1。當我提交的火花任務與我的JAR（FAT JAR），我發現了以下錯誤： user class threw exception: java.lang.NoSuchMethodError: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/am

3熱度

1回答

用放電來獲取超過某個閾值有一個值的列的名稱

Bakground 我們正在從紅移卸載數據到S3，然後加載到一個數據幀像這樣： df = spark.read.csv(path, schema=schema, sep='|') 我們在Spark 2.1.0中使用PySpark和AWS EMR（版本5.4.0）。問題我有一個是被讀入PySpark爲CSV一個紅移表。記錄是在這種格式的： url,category1,category2,ca

0熱度

1回答

當在具有不同大小的多個驅動器的計算機上使用hadoop時，規模較小的磁盤變滿

因此，我在m3.xlarge機器上使用emr-5.4.0，並在頂部添加了250 GB EBS。與250個GB EBS這種配置m3.xlarge，驅動器被安裝如下：的/ mnt /：40 GB SSD驅動 /mnt1上/：40 GB SSD驅動 /mnt2 /：250 gb ebs 我檢查了以下hadoop配置，它們如下。 yarn.nodemanager.local-顯示目錄：/ MNT /紗

0熱度

1回答

EMR和S3源火花流

我試圖打印一個流使用s3作爲源使用電子病歷中的Zeppelin筆記本。 %pyspark from pyspark.streaming import StreamingContext from pyspark.sql import Row, SparkSession ssc = StreamingContext(sc, 45) streams=ssc.textFileStream('s3: