2012-09-10 33 views
2

是否可以配置hadoop流式傳輸以在作業的運行時讀取兩個或多個輸入參數?Hadoop流式傳輸多個參數作業

例如,假設我有作爲執行腳本:my_script file1 file2

我如何在Hadoop的流指定此?

據我所知,我只能指定具有以下執行語法的作業: my_script "fixed_params" "input"

回答

1

在流式傳輸方面沒有太多工作,但我敢肯定,您可以添加另一個-input參數。

另見:Using multiple mapper inputs in one streaming job on hadoop?

+0

我不這麼認爲(我已經嘗試它,它失敗了)......我的理解是 - 輸入用於只指定輸入ARG。指定多輸入參數意味着流式作業將考慮映射器的多個輸入目錄和/或文件,但不喜歡我在我的qs中指定的語法。我認爲,流式傳輸的整個想法是基於將數據傳輸給映射器和縮減器。我不確定hadoop如何處理多個參數到腳本。 – Dev

+0

我不確定你在問什麼。你能澄清你到底想要完成什麼嗎? – HypnoticSheep

+0

說,如果我有一個如下所示的腳本: arg1 = $ 1; arg2 = $ 2; do_something $ arg1 $ arg2; 現在,我如何使用hadoop-streaming來運行這個腳本。 – Dev