2017-04-26 44 views
0

的過程我有數據。我正在使用Pig流程此數據。 PigSummarize數據將存儲在Hive中。然後配置單元表使用Sqoop在RDBMS中導出。現在我需要自動化所有這個過程。這是可能的,我會寫所有這些任務3特定的方法在的MapReduce,然後運行該的MapReduce工作,而所有這些任務由一個執行一個。 對於創建MapReduce作業,我想使用。 NetSDK。所以我的問題是這是可能的,並且如果建議一些步驟和參考鏈接這個問題。 謝謝。在<strong>CSV格式</strong>在自動化HDFS <strong></strong>(天青<strong>HDInsight</strong>)豬,配置單元,Sqoop

+0

不知道的.Net SDK,但您可以將所有那些Oozie的工作流的東西通過運行豬/蜂巢和ECT」行動的情況下,向您發送電子郵件 - 讓我知道你是否需要更多細節 – Mzf

+0

感謝您的回覆。它真的會幫助我。 錯誤我寫了MapReduce作業,我應該使用HiveJob,PigJob,SqoopJob。 再次感謝。 – Ishvari

回答

0

如果您需要定期執行這些任務,我會建議使用Oozie。看看現有的example,它有相當不錯的文檔

如果你沒有這個框架在你的雲上,你可以編寫自己的MR,但是我有Oozie你可以編寫DAG流程,其中圖表上的每個動作都可以是豬/ bash/hive/hdfs等等。

它可以運行每X日/小時/分鐘,並且可以在故障