EC2 vs EMR上運行的火花

我們是一個正在從事與數據科學相關的畢業項目的學生，我們正在開發一個使用Spark with python（Pyspark）和Android應用程序（用戶界面）的推薦引擎，我們有面臨很多障礙，其中之一是如何保持Spark腳本在雲上運行並實現快速處理和實時結果。我們所知道的EMR比EC2更新，並且已經安裝了Hadoop。我們仍然很難決定使用哪一個，他們之間在處理Spark方面有什麼不同。EC2 vs EMR上運行的火花

來源

2016-03-21 Peter Sameh

EMR更簡單，這應該是您最關心的問題。 EMR只是在EC2上運行的Hadoop，爲您預先配置好了一點額外的資金。 –

EMR提供了一個簡單的Hadoop/spark作爲服務。你只需要選擇你想要安裝的組件（spark，hadoop），它們的版本，你想要使用多少臺機器以及其他選項，然後爲你安裝所有的東西。既然你是學生，我假設你沒有像Ansible，Puppet或Chef這樣的自動化工具的經驗，可能你從來沒有維護過自己的hadoop集羣。如果是這樣的話，我會明確建議EMR。作爲一名經驗豐富的hadoop/spark用戶，同時我可以告訴你它有其自身的侷限性。當我在6個月前使用它時，我想使用最新版本的EMR（4.0如果記得沒錯的話），因爲它支持最新版本的Spark，並且我很少頭疼它來安裝Java 8而不是提供的Java 7。相信這是他們支持Java 8的初期，他們應該已經修復了這個問題。但是，這是所有「全部包含」解決方案所缺少的，特別是在您是專家用戶時的靈活性。

來源

2016-03-21 23:39:42 PinoSan

您還可以查看flintrock這是一個不錯的python cli，可以快速無縫地獲得在ec2上運行的Spark羣集。

來源

2016-03-22 14:17:17 BenFradet

EC2 vs EMR上運行的火花

回答

相關問題