2011-07-22 41 views
2

我需要在Hadoop中順序運行一些Pig腳本。它們必須分開運行。有什麼建議麼?有什麼方法可以按順序運行多個Pig腳本?

更新

只是我們正在朝着運行從一個Java類豬腳本工作快速更新。 Oozie是在評論中提到的可能性(雖然對我們的需求來說太重了)。我也聽說可以將Pig腳本編排爲Cascading(http://www.cascading.org/)中較大的工作流程的一部分,並稍微查看一下。

回答

1

在實踐中,我將大部分Pig腳本包裝在bash腳本中。你可以控制的順序執行shell腳本里面:

pig myscript1.pig && pig myscript2.pig && pig myscript3.pig

2

對於一個簡單的任務序列我猜orangeoctopus建議可能就夠了。如果您想俱樂部一起豬和/或純香草的MapReduce的一個更復雜的工作流,你應該看看Oozie

更新:

如果使用的是豬0.9,你也可以可能要看看用Python等語言嵌入豬。繼承人link

+0

+1 Oozie提及。 –

相關問題