amazon-emr

1熱度

1回答

如何在設置DataPipeline以將DynamoDB數據導出到S3時計算'DynamoDB讀取吞吐量比率'

我有一個帶有〜16M記錄的DynamoDB，其中每個記錄的大小爲4k。該表配置爲自動調節目標利用率：70％，讀取的最小配置容量：250和寫入的最大配置容量：3000. 我試圖設置數據管道將DynamoDB備份到S3。管道配置要求爲Read Throughput Ratio，默認情況下爲0.25。所以問題是如何計算Read Throughput Ratio備份大約1小時的表。我瞭解讀取容量單位。

2熱度

1回答

EMR集羣中的Zeppelin未列出AWS膠水中的目錄表

我想將AWS Glue Data Catalog用作Spark SQL的Metastore。我通過AWS控制檯as instructed here啓動了EMR羣集。我能夠從spark-shell中看到所有的粘貼目錄表，但不能從Zeppelin中看到。是否有任何屬性需要在Zeppelin屬性配置中設置？在此先感謝。

1熱度

1回答

使用boto3將現有EMR羣集複製到新羣集

使用boto3創建新羣集時，我想使用現有羣集（已終止）的配置並將其克隆。據我所知，emr_client.run_job_flow要求提供所有配置（Instances, InstanceFleets etc）作爲參數。有沒有什麼辦法可以從現有的羣集中進行克隆，就像我可以從ews的aws控制檯那樣進行克隆。

0熱度

1回答

如何在更改配置設置後重新啓動EMR中的Spark服務？

我正在使用EMR-5.9.0，並且在更改了一些配置文件之後，我想重新啓動服務以查看效果。我怎樣才能做到這一點？我嘗試使用列表initctl的查找服務的名稱，如我在其他的答案，但沒有運氣看到...

1熱度

2回答

當羣集大小很大時，Spark作業失敗，小時成功

我有一個需要三個輸入並執行兩個外部連接的spark任務。數據採用鍵值格式（String，Array [String]）。代碼的最重要的部分是： val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner

6熱度

1回答

如何調整EMR上的火花作業，以便在S3上快速寫入大量數據

我有一個火花作業，我正在做兩個數據框之間的外連接。第一個數據幀的大小爲260 GB，文件格式爲文本文件，分割爲2200個文件，第二個數據幀的大小爲2GB。將這兩個文件加載到數據框本身需要10分鐘。然後將大約260 GB的數據幀輸出寫入S3大約需要1個小時。這是我的集羣信息。 emr-5.9.0 Master:1m3.2xlarge Core:c3.4large 5 machines

0熱度

2回答

失敗使用Spark在EMR

當AWS-EMR執行我的星火工作我試圖讀取從S3存儲Avro的文件時，這個錯誤從S3閱讀的Avro：這一點與版本： EMR - 5.5 0.0 EMR - 5.9.0 這是代碼： val files = 0 until numOfDaysToFetch map { i => s"s3n://bravos/clicks/${fromDate.minusDays(i)}/*" } sp

0熱度

1回答

pyspark模塊不可用於spark正在使用的python實例

我正在使用我自己沒有在AWS中設置的EMR。我想了解Python解釋器的火花是使用在我的.bashrc我有以下設置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 當我運行我們的火花提交命令我用sys.executable打印到路徑python解釋器，這確實是它使用的解釋器。然而，當我專門去到該文件夾，運行Python的該實例與./python，

0熱度

1回答

使用的GroupBy而從HDFS複製到S3到一個文件夾中的文件合併

我有以下文件夾中HDFS： hdfs://x.x.x.x:8020/Air/BOOK/AE/DOM/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/AE/INT/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/BH/INT/20171001/2017100101 hdfs://x.x.x.x:

0熱度

1回答

Hive合併小ORC文件

我的輸入包含大量的小ORC文件，我希望在一天的每一天結束，我想將數據拆分爲100MB的塊。我的輸入和輸出都是S3和環境中使用的電子病歷，蜂巢參數，正在設置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti