我與星火上亞馬遜的EC2基礎設施工作分發文件的羣集創建星火。在執行我的Spark應用程序之前,我需要分發併發送一個自定義文件(本機庫,在我的情況下)到所有工作節點上。我正在尋找類似提供的引導功能的東西Amazon的Elastic MapReduce(EMR),開發人員可以在引導階段在每個節點上運行自定義腳本。在EC2上
到目前爲止,我已經使用星火(位於spark-ec2
文件夾)提供的copy-dir
腳本複製一個確定的文件到集羣中所有的節點,它的工作如下:
想象一下,一個本地庫(myLib.so
)需要在所有節點中存在。第一步是將文件定位到我們想要通過羣集傳播的確切目錄中。在此之後,如下所示,我們可以運行copy-dir
腳本:
spark-ec2/ > sh copy-dir my/file/location/myLib.so
但是,這種方法只能用一次集羣已創建使用,我想知道是否有引導可能性是存在的。
在'火花ec2'的'--user-data'選擇可能是你在找什麼。 – 2015-01-11 21:20:58