emr

1熱度

1回答

我想在數據管道中爲火花作業運行Jar文件，但我不確定我確切需要在EMR步驟中傳遞什麼？

0熱度

1回答

Timestamp字段在EMR上顯示1970-01-01

我有一個外部Hive表指向通過S3上的Spark作業寫入的Parquet文件，它具有日期，時間戳字段，當我通過配置單元查詢時，我得到正確的日期 CREATE EXTERNAL TABLE events( event_date date, event_timestamp timestamp, event_name string, event_category string PARTITION

1熱度

1回答

當我從EMR 5.7升級到EMR 5.8時，s3-dist-cp失敗並出現OutOfMemoryException錯誤5.8

我一直在使用s3-dist-cp將壓縮的JSON文件從S3移動到HDFS作爲更大工作的一部分。我從EMR 5.4開始並通過大多數5.x升級，目前我運行的是EMR 5.7的32臺機器羣，沒有任何問題。當我試圖升級到EMR 5.8時，s3-dist-cp作業失敗，如下所示。 5.7和5.8之間有什麼變化會導致這種情況？ # # java.lang.OutOfMemoryError: Java he

0熱度

1回答

Spark - 簡單的GraphX程序需要很長時間才能完成

我有一個9節點m3.xlarge（8 cpu/15 gig）EMR羣集，其中1個節點是主節點，其他8個節點是從節點。我試圖運行一個簡單的程序來檢查GraphX連接的組件。這是我的代碼： def main(args : Array[String]): Unit = { val sparkConfig = new SparkConf() .set("hive.exec.dyna

0熱度

1回答

如何在EMR中減少Apache Spark的日誌？

我對AWS EMR上運行的Apache Spark作業有疑問。每次執行Spark作業時，都會生成大量日誌，在我的情況下，日誌大小約爲5-10GB，但是80％的日誌是信息（無用），我怎樣才能減少這些日誌？我被log4j2用於Spark以將日誌級別更改爲「警告」以避免不必要的日誌，但是來自不同組件的那些日誌將來自YARN的一些原始日誌（一些來自EMR的日誌）合併在一起。那麼如何解決這個問題呢？有沒有

0熱度

1回答

我在EMR羣集的主服務器上運行的我的python作業失敗，如何排除故障？

我ssh給主人，並在控制檯上運行我的hadoop作業用於開發目的。我的工作在一個神祕的方式失敗，有許多Java堆棧跟蹤，使沒有意義的我，見下圖： java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 143 at org.apache.hadoop.streaming.Pip

0熱度

1回答

如何實現Amazon EMR從我的API調用中讀取數據？

我見過的所有例子都與Java程序有關嗎？我希望能夠跟蹤，同時通過查看該用戶所做的所有API調用瀏覽我的網站的用戶的行爲。所有的API調用都基於存儲在SQL數據庫中的數據。我還例如要檢查傳遞給我的搜索API的所有關鍵字最有搜索詞的列表。我想過使用Oozie的，但沒有任何人有任何其他建議？

0熱度

1回答

帶有火花的AWS DataPipeline EMR集羣

我已經使用EMR模板創建了AWS DataPipeline，但未在EMR集羣上安裝Spark。我需要爲此設置任何特殊的操作嗎？我看到一些bootstrapaction是需要火花安裝，但這也不起作用。

0熱度

1回答

在EMR集羣中針對apache spark任務自定義log4j

我有一個關於在Java作業中使用log4j及其配置文件log4j.properties的問題。我已將log4j.properties與我的Spark作業「jar」文件一起附加，在它提交給EMR集羣后，我的應用程序將初始化log4j.properties文件。這裏是我的示例代碼： public static void initializeLogger() { try {

0熱度

1回答

在Zeppelin中添加spark-csv依賴關係正在創建網絡錯誤

在Zeppelin中添加spark-csv依賴關係正在創建網絡錯誤。我去了Zeppelin的Spark解釋器，並添加了Spark-csv依賴項。 com.databricks:spark-csv_2.10:1.2.0。我也將其添加到參數選項中。我重新開始的Zeppelin和運行以下命令： import org.apache.spark.sql.SQLContext val sqlConte