1
我回顧跑這裏來了,如何讓AWS彈性MapReduce蜂巢命令並行
How to make hive run mapreduce jobs concurrently?
我的問題是如何在亞馬遜電子病歷設置這個「hive.exec.parallel.thread.number」選項集羣啓動?
此外,設置此選項相當於做類似以下的事情?
cat hive_script.hql | parallel --gnu hive -e '{}'
我的蜂巢腳本可以按任意順序運行,因爲它是簡單的啓動每一個新的(基於時間)一堆作業分區現有的表來創建衍生表的基於時間的分區。
如果他們在我的情況不相同,這些策略之一會產生更好的表現嗎?
有沒有辦法告訴新啓動的emr集羣有這個屬性,也許使用引導操作? http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop –
我發現你可以在啓動http://docs.aws.amazon時指定--hive-site。 COM/ElasticMapReduce /最新/ DeveloperGuide/EMR-CLI-commands.html –