0

我們是一個正在從事與數據科學相關的畢業項目的學生,我們正在開發一個使用Spark with python(Pyspark)和Android應用程序(用戶界面)的推薦引擎,我們有面臨很多障礙,其中之一是如何保持Spark腳本在雲上運行並實現快速處理和實時結果。 我們所知道的EMR比EC2更新,並且已經安裝了Hadoop。 我們仍然很難決定使用哪一個,他們之間在處理Spark方面有什麼不同。EC2 vs EMR上運行的火花

+0

EMR更簡單,這應該是您最關心的問題。 EMR只是在EC2上運行的Hadoop,爲您預先配置好了一點額外的資金。 –

回答

1

EMR提供了一個簡單的Hadoop/spark作爲服務。你只需要選擇你想要安裝的組件(spark,hadoop),它們的版本,你想要使用多少臺機器以及其他選項,然後爲你安裝所有的東西。既然你是學生,我假設你沒有像Ansible,Puppet或Chef這樣的自動化工具的經驗,可能你從來沒有維護過自己的hadoop集羣。如果是這樣的話,我會明確建議EMR。作爲一名經驗豐富的hadoop/spark用戶,同時我可以告訴你它有其自身的侷限性。當我在6個月前使用它時,我想使用最新版本的EMR(4.0如果記得沒錯的話),因爲它支持最新版本的Spark,並且我很少頭疼它來安裝Java 8而不是提供的Java 7。相信這是他們支持Java 8的初期,他們應該已經修復了這個問題。但是,這是所有「全部包含」解決方案所缺少的,特別是在您是專家用戶時的靈活性。

1

您還可以查看flintrock這是一個不錯的python cli,可以快速無縫地獲得在ec2上運行的Spark羣集。