emr

    0熱度

    1回答

    有沒有人曾經使用過Terraform來配置具有Auto Scaling Task節點的AWS EMR集羣? 如果是,請分享您的經驗。 謝謝。

    0熱度

    1回答

    我啓動了hadoop EMR集羣(5.5.0 - components - Hive,Hue),但沒有啓動SQOOP。但是現在我需要使用sqoop來查詢和轉儲來自mysql數據庫的數據。由於集羣已經啓動了大量的數據,想知道我是否也可以添加Sqoop。我在AWS控制檯上看不到此選項。 謝謝

    0熱度

    1回答

    現在,您可以根據CloudWatch指標對EMR羣集進行擴展,例如https://aws.amazon.com/blogs/big-data/dynamically-scale-applications-on-amazon-emr-with-auto-scaling/。 您可以根據自定義CloudWatch指標設置自動縮放值嗎?例如, ,使用火花等待批量指標?

    0熱度

    1回答

    填補蜂巢中的MapReduce的日誌我正在上存儲爲蜂巢地板上TEZ表自定義UDAF。我們的Hive作業在YARN上運行,所有這些都在Amazon EMR中設置。但是,由於我們所使用的地板數據是使用較早版本的Parquet(1.5)生成的,因此我收到了一條警告,說明YARN日誌的填充並導致磁盤在作業完成之前空間不足。 這是警告: PM警告:org.apache.parquet.CorruptStat

    0熱度

    1回答

    我試圖在配置Spark應用程序時從羣集中擠出每一個位,但似乎我並沒有完全理解所有的東西。因此,我正在AWS EMR集羣上運行應用程序,其中包含1個主節點和2個來自m3.xlarge的核心節點(每個節點15G RAM和4個vCPU)。這意味着默認情況下每個節點上預留11.25 GB的紗線計劃應用程序。因此,主節點僅由資源管理器(紗線)使用,這意味着其餘2個核心節點將用於安排應用程序(因此我們有22.

    0熱度

    1回答

    我想在EMR中自動執行集羣創建任務。我有一個json文件 ,其中包含需要應用於新羣集的配置,我想寫一個shell腳本來爲我自動執行此任務。 是否有可能通過從json文件中提供所有配置來創建EMR集羣? 例如,我有這個文件 { "Cluster": { "Ec2InstanceAttributes": { "EmrManagedMasterSecurityGroup": "s

    0熱度

    1回答

    我是EMR的新手,嘗試使用類似command-runner.jar spark-submit --deploy-mode cluster --class com.xx.xx.className s3n://mybuckets/spark-jobs.jar 的步驟啓動Spark作業。但是,spark作業需要證書作爲環境變量,我的問題是什麼纔是最好的方法將憑據作爲環境變量傳遞給spark工作。 謝謝!

    0熱度

    1回答

    打開調試模式後,我正在EMR上運行一個spark任務(yarn,cluster-mode,transient - 集羣在作業完成後關閉)。所有的火花日誌上傳到S3的預期,但我不能上傳自己的自定義日誌... 使用log4j的,我想給他們寫了如下因素路徑acording火花DOC log4j.appender.algoLog.File=${spark.yarn.app.container.log.di

    0熱度

    1回答

    在Hue筆記本(AWS EMR v5.5)中,嘗試使用Presto時遇到CLASSPATH錯誤。 日誌: File "/usr/lib/hue/build/env/lib64/python2.7/UserDict.py", line 40, in __getitem__ raise KeyError(key) KeyError: 'CLASSPATH' 有關導出CLASSPATH避

    0熱度

    1回答

    我們正試圖創建一個使用Terraform(v0.9.11)的AWS EMR集羣,並想知道是否有傳遞額外的信息通過像下面Terraform的方式 - { 'ami64':'ami-XXXXX', 'amiHvm64':'ami-XXXXXXX', 'customAMI':true, 'hadoopConfigurationVersion':'4.0',