2016-05-13 69 views
0

我想運行我的Spark任務,使用Amazon EC2實例,我知道他們的所有IP。在四臺機器上安裝Spark

我想有一臺計算機作爲主,其他三個可以運行工人節點..有人可以幫助我如何配置此任務的火花..應該是獨立的嗎?我知道如何設置主節點使用

setMaster(「SPARK:// masterIP:7070」);

但如何定義工作節點並將它們分配給上述主節點?

回答

0

如果要配置你火花集羣手動你可以通過執行啓動一個獨立的主服務器:

./sbin/start-master.sh

一旦啓動,主人將打印出一個spark:// HOST:PORT它自己的URL,您可以使用它將工作人員連接到它,或者作爲「主」參數傳遞給SparkContext。您還可以在主設備的Web UI上找到此URL,默認爲http://localhost:8080

增加員工:

現在你可以開始一個或多個工人,他們通過連接到主:

./sbin/start-slave.sh

啓動工作人員後,查看主人的網絡用戶界面(默認爲http://localhost:8080)。您應該看到那裏列出的新節點以及CPU和內存的數量(減去操作系統剩餘的1 GB)。

獲取更多信息,您可以檢查火花塞網站starting-a-cluster-manually

編輯

TO RUN工人MASTER

要啓動與啓動腳本星火獨立的集羣,您應該創建一個文件在您的Spark目錄中名爲conf/slave,其中必須包含所有機器的主機名稱您打算啓動Spark工作人員,每行一個。請注意,主機通過ssh訪問每個工作機(在主機和工作機之間應該有密碼ssh)。

配置的conf後/奴隸文件,你應該運行兩個文件:

sbin目錄/ start-master.sh - 執行鍼對 腳本的機器上啓動一個主實例。

sbin/start-slaves.sh - 在conf/slaves文件中指定的每臺機器 上啓動一個從機實例。

欲瞭解更多信息檢查Cluster Launch Scripts

+0

喜Thnaks的答覆,我有anotehr的問題,我現在設定星火主並啓動,但我想開始我的工作人員(如我使用的Java API),我想編寫一個單獨的應用程序來啓動Spark worker(通過設置工作IP),但是如何使用API​​來完成它們,我的意思是我可以從主節點或驅動程序節點運行Spark工作站,然後通過API設置它們的IP地址 – Luckylukee

+0

I已經編輯我的,包括你問什麼 –

+0

嗨我可以如何運行代碼上面的任務,我的Java應用程序需要運行兩個工作節點讀取兩個separted大文件..每個節點然後必須運行在separted機器上,我有tota l 3臺機器之一是主人,另外兩個人是工人,我不知道從哪個機器運行代碼(mastre node?)我已經在我的代碼下面加上了 – Luckylukee

相關問題