emr

    0熱度

    1回答

    當我向S3提交創建實木複合地板文件的工作時,EMR中是否有任何服務或可以看到進度條(或經過時間)的方式? 代碼: df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output")

    -2熱度

    2回答

    我S3目錄是 /sssssss/xxxxxx/rrrrrr/xx/file1 /sssssss/xxxxxx/rrrrrr/xx/file2 /sssssss/xxxxxx/rrrrrr/xx/file3 /sssssss/xxxxxx/rrrrrr/yy/file4 /sssssss/xxxxxx/rrrrrr/yy/file5 /sssssss/xxxxxx/rrrrrr/yy/fi

    0熱度

    1回答

    跨張貼由:https://forums.aws.amazon.com/thread.jspa?messageID=766424 嘿, 嘗試此策略應用到核心實例組: { "Constraints": { "MinCapacity": 0, "MaxCapacity": 2 }, "Rules": [ { "Name":

    2熱度

    2回答

    我目前正在使用連接到RDS的EMR集羣來收集2個表。 創建的兩個RDD非常龐大,但我可以執行.take(x)操作。 我還可以執行更復雜的操作,如: info_rdd = somerdd.map(lambda x: (x[1], x[2])).groupByKey().map(some_lambda) apps_rdd = apps.join(info_rdd).map(lambda x: (x[

    0熱度

    1回答

    我試圖訓練一個EMR集羣上的GBM與60 c4.8xlarge節點使用蘇打水。該進程成功運行至特定的數據大小。一旦我達到某個數據大小(訓練示例的數量),該過程會在SpreadRDDBuilder.scala的收集階段中凍結,並在一小時後死亡。發生這種情況時,網絡內存繼續增長,但Spark階段沒有進展(見下文),CPU使用率和網絡流量也很少。我試過增加執行程序和驅動程序內存以及num-executo

    1熱度

    1回答

    我需要在自定義UDF中創建一些資源(具有二進制數據的Geocoder)對象。這些資源應該爲UDF創建一次,並且每個映射器都將保存此資源的單個實例。因此,我使用創建此資源並保存其靜態引用的單個工廠。 要配置這些資源,我正在使用關閉掛鉤,如果我從控制檯退出而不是處理所有資源,它與Hive CLI控制檯(Putty)一起工作正常。 但我無法使用Hue UI處置這些資源,即使我關閉了配置單元會話,仍然存在

    1熱度

    1回答

    我有一個Java Spark作業,它可以在EC2上以獨立模式手動部署Spark 1.6.0。 我正在使用YARN將此作業提交給主站上的EMR 5.3.0羣集,但它失敗。 火花提交線是, spark-submit --class <startclass> --master yarn --queue default --deploy-mode cluster --conf spark.eventLog

    5熱度

    2回答

    我需要在EMR中設置自定義環境變量,以便在運行Spark應用程序時可用。 我曾嘗試添加此: ... --configurations '[ { "Classification": "spark-env", "Configurations": [

    0熱度

    3回答

    我正在EMR上運行Spark工作,但需要創建檢查點。我嘗試使用S3,但得到這個錯誤消息 17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://spark- jobs/checkpoint/31d57e4f-

    6熱度

    2回答

    我無法覆蓋和使用Amazon EMR上的自定義log4j.properties。我在EMR上運行Spark(Yarn),並嘗試使用Spark-Submit中的所有下列組合嘗試使用自定義log4j。 --driver-java-options "-Dlog4j.configuration=hdfs://host:port/user/hadoop/log4j.properties" --conf