我有一個運行Hadoop 2.6的hadoop羣集。我想同時提交多個作業。我想知道是否應該簡單地提交多個作業,並讓羣集處理其餘作業,或者我應該將它們作爲紗線應用程序編寫。事實上,我對Yarn應用程序開發並不十分熟悉,並且確切知道它與常規Hadoop應用程序的不同之處。如何將多個作業提交到hadoop羣集
0
A
回答
0
您可以使用正在分叉的mapreduce作業定義oozie工作流程。以下是來自apache oozie文檔的示例。
<workflow-app name="sample-wf" xmlns="uri:oozie:workflow:0.1">
...
<fork name="forking">
<path start="firstparalleljob"/>
<path start="secondparalleljob"/>
</fork>
<action name="firstparallejob">
<map-reduce>
<job-tracker>foo:9001</job-tracker>
<name-node>bar:9000</name-node>
<job-xml>job1.xml</job-xml>
</map-reduce>
<ok to="joining"/>
<error to="kill"/>
</action>
<action name="secondparalleljob">
<map-reduce>
<job-tracker>foo:9001</job-tracker>
<name-node>bar:9000</name-node>
<job-xml>job2.xml</job-xml>
</map-reduce>
<ok to="joining"/>
<error to="kill"/>
</action>
<join name="joining" to="nextaction"/>
...
</workflow-app>
+0
謝謝,那是我最初的想法。但紗線呢?我可以將它們作爲紗線應用程序提交嗎?他會有什麼不同? –
1
您可以使用MR1和YARN運行MR作業。 YARN has nothing to do with job parallelism.
這只是一個運行各種工作的框架。
使用oozie工作流或shell腳本並行運行作業。
相關問題
- 1. 如何從Web應用程序提交作業到hadoop羣集?
- 2. 如何將Flink作業提交到遠程YARN集羣?
- 3. 如何從另一個hadoop作業提交hadoop作業
- 4. 通過socks代理將YARN作業提交到遠程Hadoop集羣
- 5. 使用AWS Hadoop集羣設置的Spark作業提交
- 6. 提交Hadoop作業
- 7. Git將多個提交集羣集合成一個提交
- 8. 在lsf集羣上提交mpi作業
- 9. 使用'-py-files'參數將PySpark作業提交到羣集
- 10. 使用MRJob將作業提交到EMR集羣
- 11. 如何強制condor將作業提交到集羣中的所有節點?
- 12. 如何將Sqoop連接到多個hadoop羣集
- 13. 如何從Java向遠程YARN集羣提交級聯作業?
- 14. 如何正確提交火花的作業單機集羣
- 15. Hadoop和多個集羣
- 16. 整合多個Hadoop集羣
- 17. nohup命令將作業提交給集羣
- 18. 無法提交從Windows IDE到Linux集羣的Spark作業
- 19. 如何在作業提交前將jar分發給hadoop
- 20. 如何使用ResourceManager HA和Hortowork的HDP將MR作業提交給YARN羣集?
- 21. Hadoop集羣工作
- 22. 在Amazon EC2上運行hadoop作業:多節點羣集
- 23. 鏈接多個hadoop作業,無需等待提交
- 24. 有沒有一種使用bash將作業提交到集羣的好方法?
- 25. Hadoop HDInsight .NET SDK API提交作業
- 26. 如何管理配置以連接到多個Hadoop集羣?
- 27. 如何將一個Hadoop集羣中的數據複製到另一個Hadoop集羣?
- 28. 將Hadoop配置爲多節點羣集
- 29. Hadoop多節點羣集
- 30. Hadoop多主集羣設置
你需要執行哪種工作? Mapreduce,Hive等? – InfamousCoconut
他們只是mapreduce工作 –