我試圖在IPython筆記本中使用Spark連接到AWS EC2羣集來運行簡單的WordCount作業。當我在本地獨立模式下使用Spark時,該程序完美工作,但在嘗試將其連接到EC2羣集時會引發問題。在EC2上使用Spark的IPython Notebook:初始作業未接受任何資源
我採取了以下措施
我按照這個Supergloo blogpost的指示。
直到我嘗試將輸出寫入文件的最後一行發現沒有錯誤。 [火花惰性加載功能,意味着這個程序的時候真正開始執行]
這是我得到的錯誤
[Stage 0:> (0 + 0)/2]16/08/05 15:18:03 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
居然沒有任何錯誤,我們有這個警告,程序進入無限期的等待狀態。除非我殺死IPython筆記本,否則什麼都不會發生。
我看這Stackoverflow post,並通過主指令之後,使用此選項減少核的數量爲1,並且存儲器512
--total-executor-cores 1 --executor-memory 512m
從SparkUI屏幕捕獲是如下 sparkUI
這清楚地表明核心和用戶界面都沒有被充分利用。
最後,我從這個StackOverflow post是
的火花EC2腳本看到EC2配置星火集羣作爲獨立的, 這意味着它不能與遠程的提交工作。我一直在努力 與你在前幾天描述的相同的錯誤,然後纔算出它不支持 。該消息錯誤不幸是不正確的。
所以你必須複製你的東西並登錄到主人執行你的 火花任務。
如果事實確實如此,那麼沒有什麼更多的事情要做,但由於該聲明是在2014年提出,我希望的是,在過去的2年劇本已經解決或有解決方法。如果有任何解決方法,我會很感激,如果有人能指出我的請。
感謝您的閱讀,直到這一點,並提供任何建議。