我有一個Oozie工作流程,應該每隔X分鐘運行一次。它從HBase表中讀取一個值。在此之後,基於上一步中從HBase中讀取的值運行(增量)Sqoop操作。爲了使工作流程正常工作,我需要以某種方式捕獲Sqoop Oozie操作中新的最新值,並將其寫回HBase,並在下一次工作流程運行時再次讀取它...等等。捕獲oozie中的sqoop輸出
我該怎麼做,或者可能有更好的方法?
喬納斯
我有一個Oozie工作流程,應該每隔X分鐘運行一次。它從HBase表中讀取一個值。在此之後,基於上一步中從HBase中讀取的值運行(增量)Sqoop操作。爲了使工作流程正常工作,我需要以某種方式捕獲Sqoop Oozie操作中新的最新值,並將其寫回HBase,並在下一次工作流程運行時再次讀取它...等等。捕獲oozie中的sqoop輸出
我該怎麼做,或者可能有更好的方法?
喬納斯
我覺得博客http://www.tanzirmusabbir.com/2013/05/chunk-data-import-incremental-import-in.html可能給你一些提示。
基本上,它將startindex和chunksize保留在job.properties中,並且startindex用於Sqoop作業中的where條件,然後它在sqoop作業之後通過shell腳本更改startindex。
博客中提到的文檔不可訪問。 – kfkhalili 2016-04-20 08:44:09
Sqoop目前不支持開箱即用,您必須在此階段自行更新屬性文件。但個人而言,我認爲這應該被視爲Sqoop功能的一部分。 – Shengjie 2013-08-20 16:13:06