我有一個快速的Hadoop Streaming問題。如果我正在使用Python流,並且我有我的映射器/減速器需要但未默認安裝的Python包,我是否還需要在所有Hadoop機器上安裝這些包,或者是否有某種序列化將它們發送到遠程機器?使用Hadoop Streaming管理依賴關係?
0
A
回答
2
如果它們未安裝在任務框中,可以使用-file發送它們。如果你需要一個包或其他目錄結構,你可以發送一個zip文件,它將被解壓縮。這裏有一個Haddop 0.17調用:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
但是,看到這個問題的一個警告:
1
如果使用小飛,你可以使用-libegg分發雞蛋文件和自動配置的Python運行時間:
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
相關問題
- 1. Hadoop Streaming - Perl模塊依賴關係
- 2. 管理依賴關係
- 3. JavaScript依賴關係管理
- 4. 使用git管理庫依賴關係
- 5. 使用Maven管理DLL依賴關係
- 6. Hadoop HDFS依賴關係
- 7. 如何使用lein來管理依賴關係的依賴關係?
- 8. 清理Maven依賴關係管理
- 9. Perl模塊依賴關係管理
- 10. Web的依賴關係管理器
- 11. 管理軟件包依賴關係
- 12. 管理全局依賴關係
- 13. EMR上的Python依賴關係管理
- 14. 管理依賴關係與鮑爾
- 15. 管理OSS項目的依賴關係
- 16. 如何管理.net依賴關係
- 17. 管理與Maven 2的依賴關係
- 18. Maven依賴關係管理問題
- 19. 管理內部依賴關係
- 20. Gradle「改變」依賴關係管理
- 21. 釜中的Jar依賴關係管理
- 22. Visual Studio .Net依賴關係管理
- 23. npm:依賴關係如何管理?
- 24. C++依賴關係管理器
- 25. Ionic 2 - 管理依賴關係
- 26. 管理版本依賴關係
- 27. 有效管理彈簧依賴關係
- 28. java中的依賴關係管理
- 29. R中的依賴關係管理
- 30. 在virtualenv中管理github依賴關係
氏問題展示瞭如何在每個節點上導入nltk。 http://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775 – viper 2013-11-04 18:08:47