emr

    1熱度

    1回答

    我想在數據管道中爲火花作業運行Jar文件,但我不確定我確切需要在EMR步驟中傳遞什麼?

    0熱度

    1回答

    我有一個外部Hive表指向通過S3上的Spark作業寫入的Parquet文件,它具有日期,時間戳字段,當我通過配置單元查詢時,我得到正確的日期 CREATE EXTERNAL TABLE events( event_date date, event_timestamp timestamp, event_name string, event_category string PARTITION

    1熱度

    1回答

    我一直在使用s3-dist-cp將壓縮的JSON文件從S3移動到HDFS作爲更大工作的一部分。我從EMR 5.4開始並通過大多數5.x升級,目前我運行的是EMR 5.7的32臺機器羣,沒有任何問題。 當我試圖升級到EMR 5.8時,s3-dist-cp作業失敗,如下所示。 5.7和5.8之間有什麼變化會導致這種情況? # # java.lang.OutOfMemoryError: Java he

    0熱度

    1回答

    我有一個9節點m3.xlarge(8 cpu/15 gig)EMR羣集,其中1個節點是主節點,其他8個節點是從節點。我試圖運行一個簡單的程序來檢查GraphX連接的組件。這是我的代碼: def main(args : Array[String]): Unit = { val sparkConfig = new SparkConf() .set("hive.exec.dyna

    0熱度

    1回答

    我對AWS EMR上運行的Apache Spark作業有疑問。每次執行Spark作業時,都會生成大量日誌,在我的情況下,日誌大小約爲5-10GB,但是80%的日誌是信息(無用),我怎樣才能減少這些日誌? 我被log4j2用於Spark以將日誌級別更改爲「警告」以避免不必要的日誌,但是來自不同組件的那些日誌將來自YARN的一些原始日誌(一些來自EMR的日誌)合併在一起。那麼如何解決這個問題呢?有沒有

    0熱度

    1回答

    我ssh給主人,並在控制檯上運行我的hadoop作業用於開發目的。我的工作在一個神祕的方式失敗,有許多Java堆棧跟蹤,使沒有意義的我,見下圖: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 143 at org.apache.hadoop.streaming.Pip

    0熱度

    1回答

    我見過的所有例子都與Java程序有關嗎? 我希望能夠跟蹤,同時通過查看該用戶所做的所有API調用瀏覽我的網站的用戶的行爲。所有的API調用都基於存儲在SQL數據庫中的數據。 我還例如要檢查傳遞給我的搜索API的所有關鍵字最有搜索詞的列表。 我想過使用Oozie的,但沒有任何人有任何其他建議?

    0熱度

    1回答

    我已經使用EMR模板創建了AWS DataPipeline,但未在EMR集羣上安裝Spark。我需要爲此設置任何特殊的操作嗎? 我看到一些bootstrapaction是需要火花安裝,但這也不起作用。

    0熱度

    1回答

    我有一個關於在Java作業中使用log4j及其配置文件log4j.properties的問題。 我已將log4j.properties與我的Spark作業「jar」文件一起附加,在它提交給EMR集羣后,我的應用程序將初始化log4j.properties文件。 這裏是我的示例代碼: public static void initializeLogger() { try {

    0熱度

    1回答

    在Zeppelin中添加spark-csv依賴關係正在創建網絡錯誤。 我去了Zeppelin的Spark解釋器,並添加了Spark-csv依賴項。 com.databricks:spark-csv_2.10:1.2.0。我也將其添加到參數選項中。 我重新開始的Zeppelin和運行以下命令: import org.apache.spark.sql.SQLContext val sqlConte