由於oozie是Hadoop平臺的工作流引擎,它是否可以提高執行MapReduce作業的DAG依賴項的性能?oozie是否在I/O方面提供任何性能優化?
我的意思是,由於一個MapReduce作業的輸出作爲DAG中下一個MapReduce作業的輸入,oozie是否提供了任何機制來將中間結果存儲在內存中,從而節省I/O。
或者它只是一個工作流程管理器,它協調一系列依賴MapReduce?
想知道內部oozie的工作原理嗎?
由於oozie是Hadoop平臺的工作流引擎,它是否可以提高執行MapReduce作業的DAG依賴項的性能?oozie是否在I/O方面提供任何性能優化?
我的意思是,由於一個MapReduce作業的輸出作爲DAG中下一個MapReduce作業的輸入,oozie是否提供了任何機制來將中間結果存儲在內存中,從而節省I/O。
或者它只是一個工作流程管理器,它協調一系列依賴MapReduce?
想知道內部oozie的工作原理嗎?
它只是一個工作流程管理器。即使運行M/R作業,它也不會改變MapReduce的工作方式。
你所描述的更像是什麼Apache Spark。我並不知道Oozie與Spark直接集成,但是,它不可能是困難的或遙遠的。
它只是「一個工作流程管理器,協調一系列MapReduce」作業。它使用與使用命令行相同的機制來執行作業。