emr

    1熱度

    1回答

    如何在EMR集羣中發出hdfs命令作爲步驟?將步驟作爲script_runner.jar任務添加似乎奇怪地失敗。

    0熱度

    1回答

    https://aws.amazon.com/emr/pricing/ 有人可以解釋爲什麼EMR和EC2的價格差異很大,我們正在考慮是否在EMR上構建我們的火花簇或在EC2上使用Clourdera。我錯過任何明顯的東西嗎?謝謝

    1熱度

    1回答

    我使用蜂巢2.1.1,我試圖在列名來創建一個表.: CREATE TABLE `test_table`( `field.with.dots` string ); 當我這樣做,我得到: FAILED: ParseException line 4:0 Failed to recognize predicate ')'. Failed rule: '[., :] can not be us

    0熱度

    1回答

    導致集羣上的某個節點進入不健康狀態的原因是什麼? 基於我的理解有限,它通常發生在給定節點上的HDFS利用率超出閾值時。該閾值由max-disk-utilization-per-disk-percentage屬性定義。 我曾經觀察到在spark-sql觸發內存密集型spark工作或使用pyspark節點進入不健康狀態的時候。進一步觀察後,我在處於不健康狀態的節點上執行了ssh,發現實際上dfs利用率

    1熱度

    2回答

    我的Spark應用程序無法在AWS EMR羣集上運行。我注意到這是因爲某些類從EMR設置的路徑加載而不是從我的應用程序jar加載。文件:例如 java.lang.NoSuchMethodError: org.apache.avro.Schema$Field.<init>(Ljava/lang/String;Lorg/apache/avro/Schema;Ljava/lang/String;Ljav

    0熱度

    1回答

    我在EMR中創建了2 EXTERNAL TABLE,映射到DynamoDB。表名稱爲屬性和屬性類型。 屬性中,我的店鋪id的屬性類型爲attributeTypeId。 我如何從包含JOIN,WHERE,ORDER和LIMIT的NodeJS應用程序在EMR配置單元上運行查詢。我怎樣才能從NodeJS應用程序中做到這一點。到目前爲止,我只能成功地從AWS CLI運行查詢,並且在AWS SDK中找不到任

    1熱度

    1回答

    要重寫這個問題是因爲我收到了很多更新的信息。 我的問題是: 我有1個主節點和1個從節點的集羣EMR。從節點配置爲可以不受限制地訪問開放的互聯網(我知道這是一個安全風險)。 當我建立這個集羣的引導作用,這只是調用sudo yum -y update,它失敗了,說,引導作用的從屬節點上(它總是成功的上主)失敗 但是,如果SSH到從節點並手動嘗試執行sudo yum -y update,該操作在5.5.

    5熱度

    1回答

    我已經在AWS datapipeline中設置了emr步驟。 step命令是這樣的: /usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file

    0熱度

    2回答

    我們在AWS中配置了11個節點(1個主節點+ 10個核心)EMR集羣。我們爲每個節點選擇了100 GB的磁盤空間。 當調配集羣時,EMR自動爲根分區(/ dev/xvda1)分配10GB。一段時間後,根分區磁盤空間變滿,由於這個原因,我們無法運行任何作業或使用yum命令安裝git等基本軟件。 [[email protected]<<ip address>> ~]$ df -BG Filesyst

    4熱度

    1回答

    我收到此錯誤,我嘗試增加羣集實例和執行程序和驅動程序參數上的內存,但未成功。 17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-central-1.compute.internal/172.30.12.164:34706: java.nio.c