emr

0熱度

2回答

我有一個很煩人的文件集結構，像這樣： userId string, eventType string, source string, errorCode string, startDate timestamp, endDate timestamp 每個文件可能包含的每EVENTID記錄的任意數，用不同eventTypes和來源，以及不同的代碼和每個的開始/結束日期。是否有蜂巢的方式

0熱度

1回答

用於自動終止EMR集羣的AWS數據管道選項

我已經使用數據管道設置了EMR集羣，但集羣在我的步驟功能狀態顯示完成後終止。我在我的step函數中執行一個python腳本，在後臺產生一個spark工作。如何在使用數據管道服務在EMR上運行成功的步進功能後使羣集可用？

0熱度

1回答

EMR Hive輸出對象的自定義ACL寫入S3

set fs.s3.canned.acl = BucketOwnerFullControl; 上面一行是配置電子病歷的蜂巢作業對象寫入使用罐裝ACL（http://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-s3-acls.html）我在想，如果我能有同樣的方式自定義ACL到S3的一個例子。用例： EMR寫入S3（regionA），然後

1熱度

1回答

使用boto3將現有EMR羣集複製到新羣集

使用boto3創建新羣集時，我想使用現有羣集（已終止）的配置並將其克隆。據我所知，emr_client.run_job_flow要求提供所有配置（Instances, InstanceFleets etc）作爲參數。有沒有什麼辦法可以從現有的羣集中進行克隆，就像我可以從ews的aws控制檯那樣進行克隆。

0熱度

1回答

如何在更改配置設置後重新啓動EMR中的Spark服務？

我正在使用EMR-5.9.0，並且在更改了一些配置文件之後，我想重新啓動服務以查看效果。我怎樣才能做到這一點？我嘗試使用列表initctl的查找服務的名稱，如我在其他的答案，但沒有運氣看到...

1熱度

2回答

AWS EMR Presto使用AWS膠水找不到正確的Hive模式

所以我遇到了能夠通過AWS EMR執行Presto查詢的問題。我已經啓動了運行配置單元/ presto並使用AWS Glue作爲Metastore的EMR。當我進入主節點並運行配置單元的SSH時，我可以運行「show schemas;」它向我展示了我們在AWS Glue上的3個不同的數據庫。如果我再進入普雷斯托CLI及運行「上蜂巢節目模式」我只看到兩個「默認」和「INFORMATION_SC

1熱度

2回答

當羣集大小很大時，Spark作業失敗，小時成功

我有一個需要三個輸入並執行兩個外部連接的spark任務。數據採用鍵值格式（String，Array [String]）。代碼的最重要的部分是： val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner

0熱度

2回答

如何在pyspark中設置拆分和減速器的數量

我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據，並想知道如何在代碼中設置拆分和工人數量？我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

0熱度

1回答

csv是否使用pyspark分發的實木複合地板？

我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

5熱度

1回答

如何將具有bucketBy/sortkey值的parquet文件保存到s3中？

它看起來像這樣就會因錯誤 df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .bucketBy(32,"column").sortBy("column") .parque