按給定羣集配置Spark

我必須將一些python應用程序發送到Apache Spark羣集。給定一個Clustermanager和一些帶有地址的工作節點來發送應用程序。按給定羣集配置Spark

我的問題是，如何在我的本地計算機上設置和配置Spark，以便將這些請求與要處理的數據一起發送到羣集？

我在Ubuntu 16.xx上工作，已經安裝了java和scala。我已經搜索了inet，但大多數發現是如何構建集羣或一些舊的建議如何做到這一點，這是過時的。

2016-09-16 Sam

我假設你正在運行遠程集羣，並且你可以從遠程服務器本身提交作業。你需要的是ssh tuneling。請記住，它不適用於aws。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N

來源

2016-09-16 15:25:17 Dima

爲什麼隧道？不會在spark-submit命令中設置主設備足夠了嗎？ –

你的問題不清楚。如果數據位於本地計算機上，則應首先將數據複製到HDFS文件系統上的羣集。 Spark可以使用YARN（使用YARN或MESOS？）以3種模式工作：羣集，客戶端和獨立模式。您正在尋找的是客戶端模式或集羣模式。但是，如果您想從本地機器啓動應用程序，請使用客戶端模式。如果您有SSH訪問權限，則可以自由使用兩者。

最簡單的方法是直接在集羣上覆制代碼（如果它已正確配置），然後使用./spark-submit腳本啓動應用程序，並提供要用作參數的類。它適用於python腳本和java/scala類（我只使用python，所以我不知道）

來源

2016-09-16 11:19:52 GwydionFR

按給定羣集配置Spark

回答

相關問題