2016-09-16 103 views
0

我必須將一些python應用程序發送到Apache Spark羣集。給定一個Clustermanager和一些帶有地址的工作節點來發送應用程序。按給定羣集配置Spark

我的問題是,如何在我的本地計算機上設置和配置Spark,以便將這些請求與要處理的數據一起發送到羣集?

我在Ubuntu 16.xx上工作,已經安裝了java和scala。我已經搜索了inet,但大多數發現是如何構建集羣或一些舊的建議如何做到這一點,這是過時的。

回答

0

我假設你正在運行遠程集羣,並且你可以從遠程服務器本身提交作業。你需要的是ssh tuneling。請記住,它不適用於aws。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N 

在這裏閱讀更多:http://www.revsys.com/writings/quicktips/ssh-tunnel.html

+0

爲什麼隧道?不會在spark-submit命令中設置主設備足夠了嗎? –

0

你的問題不清楚。如果數據位於本地計算機上,則應首先將數據複製到HDFS文件系統上的羣集。 Spark可以使用YARN(使用YARN或MESOS?)以3種模式工作:羣集,客戶端和獨立模式。您正在尋找的是客戶端模式或集羣模式。但是,如果您想從本地機器啓動應用程序,請使用客戶端模式。如果您有SSH訪問權限,則可以自由使用兩者。

最簡單的方法是直接在集羣上覆制代碼(如果它已正確配置),然後使用./spark-submit腳本啓動應用程序,並提供要用作參數的類。它適用於python腳本和java/scala類(我只使用python,所以我不知道)