使用spark與aws集羣

我按照指令here成功設置集羣。想知道是否可以通過API使用這種類型的集羣來調用Spark？哪裏可以找到Spark端點的詳細信息？如果前面提到的教程是死衚衕的，請問有誰能指出我正確的方向？使用spark與aws集羣

我最終的POC目標是在某個S3存儲桶中的平面文件（例如csv）中添加2列，並通過spark將第三列的結果值進行比較（這不是功課（ - :) - 理想情況下使用Mobius因爲我[前] .net開發）。

2017-04-02 cs0815

This reference應該爲您提供所需的信息。這裏是一個片段：

「去到EC2目錄中的Apache的版本星火您下載運行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>，其中<keypair>是您的EC2密鑰對的名稱（即你給它創建時） <key-file>是你的密鑰對私鑰文件，<num-slaves>是啓動從節點的數量（嘗試1在第一），並且<cluster-name>是給你的集羣名稱

例如：

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU 
export AWS_ACCESS_KEY_ID=ABCDEFG123456789

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster

所有內容啓動後，請檢查集羣調度程序是否已啓動，並通過轉至其Web UI（將在腳本的末尾打印（通常爲http://master-hostname:8080））來查看所有從屬設備。「

來源

2017-04-02 18:24:28 Vidya

謝謝我會盡快檢查出來 – cs0815

使用spark與aws集羣

回答

相關問題