2016-08-05 24 views
1

我試圖在IPython筆記本中使用Spark連接到AWS EC2羣集來運行簡單的WordCount作業。當我在本地獨立模式下使用Spark時,該程序完美工作,但在嘗試將其連接到EC2羣集時會引發問題。在EC2上使用Spark的IPython Notebook:初始作業未接受任何資源

我採取了以下措施

我按照這個Supergloo blogpost的指示。

直到我嘗試將輸出寫入文件的最後一行發現沒有錯誤。 [火花惰性加載功能,意味着這個程序的時候真正開始執行]

這是我得到的錯誤

[Stage 0:>               (0 + 0)/2]16/08/05 15:18:03 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 

居然沒有任何錯誤,我們有這個警告,程序進入無限期的等待狀態。除非我殺死IPython筆記本,否則什麼都不會發生。

我看這Stackoverflow post,並通過主指令之後,使用此選項減少核的數量爲1,並且存儲器512

--total-executor-cores 1 --executor-memory 512m 

從SparkUI屏幕捕獲是如下 sparkUI

這清楚地表明核心和用戶界面都沒有被充分利用。

最後,我從這個StackOverflow post

的火花EC2腳本看到EC2配置星火集羣作爲獨立的, 這意味着它不能與遠程的提交工作。我一直在努力 與你在前幾天描述的相同的錯誤,然後纔算出它不支持 。該消息錯誤不幸是不正確的。

所以你必須複製你的東西並登錄到主人執行你的 火花任務。

如果事實確實如此,那麼沒有什麼更多的事情要做,但由於該聲明是在2014年提出,我希望的是,在過去的2年劇本已經解決或有解決方法。如果有任何解決方法,我會很感激,如果有人能指出我的請。

感謝您的閱讀,直到這一點,並提供任何建議。

回答

0

除非您設置了基於REST的Spark作業服務器,否則您無法提交除Master之外的作業 - 如您所見。

相關問題