如何判斷我即將在羣集上還是在「本地」模式下運行Hadoop串流作業？

Hadoop的數據流將運行過程中的「本地」模式時，有設備上運行的Hadoop沒有實例。我有一個shell腳本按順序控制一組hadoop流式作業，並且需要將文件從HDFS複製到本地，具體取決於作業是否已在本地運行。有沒有一種標準的方法來完成這個測試？我可以做一個「ps aux | grep something」，但這似乎是特設的。如何判斷我即將在羣集上還是在「本地」模式下運行Hadoop串流作業？

來源

2011-12-31 SetJmp

而不是試圖在過程運行該模式的運行時間來檢測，它可能是更好的包裹要在bash腳本，明確選擇本地VS集羣operatide開發工具。 O'Reilly的Hadoop的介紹瞭如何明確選擇本地使用配置文件覆蓋：

hadoop v2.MaxTemperatureDriver -conf conf/hadoop-local.xml input/ncdc/micro max-temp

其中conf-local.xml設置爲本地操作的XML文件。

來源

2012-01-13 16:54:33 SetJmp

當箱子上沒有運行hadoop實例時，Hadoop流將以「本地」模式運行進程。

你能PL點爲這個參考？

定期或流作業的運行它的配置方式，所以我們提前知道其模式的作業運行時間。查看以不同模式在Single Node和Cluster上配置Hadoop的文檔。

來源

2011-12-31 08:42:16

我沒有試過，但我認爲你可以讀出mapred.job.tracker配置設置。

來源

2012-01-26 23:55:46

如何判斷我即將在羣集上還是在「本地」模式下運行Hadoop串流作業？

回答

相關問題