2013-11-21 47 views
2

根據數據管道文檔,EMRActivity步驟命令使用與常規EMR作業不同的格式。EmrActivity的多個輸入

下面是一個簡單的例子:

/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer. 

比方說,我需要從多個容器中提取數據,我怎麼能傳遞這些多個輸入到一個單一的步驟的命令?

在常規的EMR作業設置中,我只是用逗號分隔輸入路徑,但這對於EmrActivity似乎不起作用。

我對EmrActivity的解決方案非常感興趣,而不是設置複製活動來將我的數據帶到臨時唯一位置。

謝謝。

+0

很少有我累了的事情:多次調用 - 輸入,傳遞一個數組到-input,使用-files。沒有運氣。 –

+1

看起來像我所要做的只是轉義逗號(\,),它將輸入參數值中的多個路徑分開,例如:/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3 ://mybucket/folder1/*.gz \,S3://mybucket/folder2/*.gz,-output,s3://輸出,-mapper =映射器, - 減少=減速器。 –

+0

當我嘗試轉義逗號時,出現「Invalid \ escape」。 –

回答

0

驗證json需要使用cli轉義。如果從CLI使用json,請嘗試使用「\」。 (\,)將從控制檯工作。