我們是一個正在從事與數據科學相關的畢業項目的學生,我們正在開發一個使用Spark with python(Pyspark)和Android應用程序(用戶界面)的推薦引擎,我們有面臨很多障礙,其中之一是如何保持Spark腳本在雲上運行並實現快速處理和實時結果。 我們所知道的EMR比EC2更新,並且已經安裝了Hadoop。 我們仍然很難決定使用哪一個,他們之間在處理Spark方面有什麼不同。EC2 vs EMR上運行的火花
0
A
回答
1
EMR提供了一個簡單的Hadoop/spark作爲服務。你只需要選擇你想要安裝的組件(spark,hadoop),它們的版本,你想要使用多少臺機器以及其他選項,然後爲你安裝所有的東西。既然你是學生,我假設你沒有像Ansible,Puppet或Chef這樣的自動化工具的經驗,可能你從來沒有維護過自己的hadoop集羣。如果是這樣的話,我會明確建議EMR。作爲一名經驗豐富的hadoop/spark用戶,同時我可以告訴你它有其自身的侷限性。當我在6個月前使用它時,我想使用最新版本的EMR(4.0如果記得沒錯的話),因爲它支持最新版本的Spark,並且我很少頭疼它來安裝Java 8而不是提供的Java 7。相信這是他們支持Java 8的初期,他們應該已經修復了這個問題。但是,這是所有「全部包含」解決方案所缺少的,特別是在您是專家用戶時的靈活性。
1
您還可以查看flintrock這是一個不錯的python cli,可以快速無縫地獲得在ec2上運行的Spark羣集。
相關問題
- 1. 在EMR上運行python火花
- 2. EMR和S3源火花流
- 3. EMR vs EC2/Hadoop on AWS
- 4. 監控AWS EMR中的火花集羣,無火花UI
- 5. 火花:如何從火花外殼運行火花文件
- 6. 帶有火花的AWS DataPipeline EMR集羣
- 7. 星火流(運行例如VS火花提交)
- 8. 運行火花應用程序失敗EC2與hadoop IncompatibleClassChangeError
- 9. 在亞馬遜的EMR/EC2上使用hadoop運行mahout
- 10. 運行火花應用
- 11. 運行火花外殼
- 12. 火花斯卡拉運行
- 13. 使用AWS數據管道 - EMR vs EC2
- 14. 使用數據管道進行火花作業的EMR活動
- 15. EMR-5.4.0(火花執行人存儲器分配問題)
- 16. 在EMR上運行mahout RecommenderJob
- 17. nutch在EMR上運行
- 18. 的火花運行的總S3數據
- 19. 如何運行的火花應用
- 20. 棧()的火花SQL - 運行時異常
- 21. EMR,EC2,OpenStack,請說明
- 22. 星火與EMR
- 23. NoSuchMethodError在運行火花流時
- 24. 遠程運行火花作業
- 25. 運行火花時發生堆錯誤?
- 26. 在火花中運行嵌套作業
- 27. 運行火花microbenchmarks使用sbt
- 28. 火花上的並行任務
- 29. 分配紗構造的火花命令EMR
- 30. 在火花上運行的Apache Zeppelin發生java ConnectionException
EMR更簡單,這應該是您最關心的問題。 EMR只是在EC2上運行的Hadoop,爲您預先配置好了一點額外的資金。 –