2017-04-02 138 views
0

我按照指令here成功設置集羣。想知道是否可以通過API使用這種類型的集羣來調用Spark?哪裏可以找到Spark端點的詳細信息?如果前面提到的教程是死衚衕的,請問有誰能指出我正確的方向?使用spark與aws集羣

我最終的POC目標是在某個S3存儲桶中的平面文件(例如csv)中添加2列,並通過spark將第三列的結果值進行比較(這不是功課( - :) - 理想情況下使用Mobius因爲我[前] .net開發)。

回答

1

This reference應該爲您提供所需的信息。這裏是一個片段:

去到EC2目錄中的Apache的版本星火您下載 運行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>,其中<keypair>是您的EC2密鑰對的名稱(即你給它創建時) <key-file>是你的密鑰對私鑰文件,<num-slaves>是啓動從節點的數量(嘗試1在第一),並且<cluster-name>是給你的集羣名稱

例如

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU 
export AWS_ACCESS_KEY_ID=ABCDEFG123456789

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster 

所有內容啓動後,請檢查集羣調度程序是否已啓動,並通過轉至其Web UI(將在腳本的末尾打印(通常爲http://master-hostname:8080))來查看所有從屬設備。

+0

謝謝我會盡快檢查出來 – cs0815