oozie

    1熱度

    1回答

    我的目標是在我們的Hadoop集羣上運行應用程序,而無需將顯式配置放入每個應用程序。因此,我試圖將羣集的配置放入ENV變量並將它們傳播到羣集中的每個節點。 比如我定義: export HIVE2_JDBC_URL=jdbc:hive2://localhost:10000 到以後使用這樣的: beeline -u $HIVE2_JDBC_URL/<db_name> -e "SELECT * FR

    0熱度

    1回答

    我目前正在學習如何使用Apache Oozie在CDH 5.8中運行Spark Jobs,但似乎發現問題。 我正在使用IntelliJ> Build Artifact(進入Uber JAR/Fat JAR)編譯我的Spark工作,並稍後刪除其清單文件。然後我運行spark-submit來運行JAR。它工作正常。 但是當我用Oozie指定Spark Action時。我得到以下錯誤: Failing

    0熱度

    1回答

    從oozie運行時,Sqoop操作失敗,但當命令行(邊緣節點)複製粘貼命令時,它完全正常執行。當從Oozie的作業ID運行被觸發,然後我收到以下錯誤 Error: com.teradata.connector.common.exception.ConnectorException: index outof boundary at com.teradata.connector.teradata.c

    2熱度

    1回答

    如何使用Oozie檢查HDFS位置中的文件是否存在? 在我的HDFS位置上,我會在每天的11點收到一個類似於test_08_01_2016.csv的文件。 我想檢查此文件是否在11.15 PM之後存在。我可以使用Oozie協調員工作安排批次。 但是我如何驗證文件是否存在於HDFS中?

    0熱度

    1回答

    作爲開源的Oozie新手用戶,我發現需要改進其幾行源代碼,因此我將另一個Oozie存儲庫爲自己,創造了修復一個分支,把我的變化分支,然後做了一個pull request:(https://github.com/mapr/oozie/pull/1) 但基於github上的文檔,一個pull request應該對應於一個ìssue。由於Apache(或Mapr)存儲庫是公開的(https://gith

    1熱度

    2回答

    我想檢查文件是否存在,在HDFS位置使用oozie批處理。 在我的HDFS位置,在日常的基礎上,我將在每天晚上11點獲得像「test_08_01_2016.csv」,「test_08_02_2016.csv」這樣的文件。 所以我想檢查文件是否存在是晚上11點15分,我可以檢查文件存在不使用決策節點。通過使用以下工作流。 <workflow-app name="HIVECoWorkflow" xml

    0熱度

    1回答

    我曾經遇到過一個問題貫穿了Oozie星火工作的同時,因爲有像第一份工作相關的作業會觸發第二份工作,第二個作業將引發第三次工作在某些情況下,我得到超時錯誤至於是不是創建SparkContext和最終數據未能獲得加載配置單元, 我不得不通過Oozie的-SSH行動計劃在Oozie的5個相互依賴的工作。 讓我知道,如果我的描述不有道理

    0熱度

    1回答

    我正在瀏覽一些Oozie示例,我最感興趣的三個動作是Sqoop,Hive和Pig動作。在一些例子中,mapreduce.job.queuename財產(mapred.queue.name對於舊版本)配置,通常以default,像這樣: <action> <sqoop> ... <configuration> <property> <name>m

    0熱度

    1回答

    我正在運行OOZIE工作流程並在map-reduce操作中執行僅地圖分佈式模型擬合。由於有很多映射器,我寫了一個代碼,它使用yarn logs -applicationId application_x編譯所有映射器任務的YARN日誌,其中application_x是所有映射任務的父應用程序ID。現在我想將此彙總作爲工作流程的一部分,因此我需要動態獲取application_x這是上一個操作的應用程

    0熱度

    1回答

    我們可以通過跳過一些節點重新運行oozie協調器嗎?我知道我們可以在oozie工作流程中做到這一點,但是我們可以在協調員中做到嗎?