回答
假設您安裝了SSM,可以使用ssm.send_command(將命令發送給所有節點)來調用S3腳本,該腳本在正在運行的EMR集羣上安裝並啓動鑽取。
在AWS Github https://github.com/awslabs/emr-bootstrap-actions/blob/master/drill/setup_drill上提供了一個ruby腳本,它看上去像應該的工作,假設你已經安裝了ruby。我沒有看到它無法在現有羣集上運行的任何原因。安裝了所有選定的EMR組件後,EMR運行引導腳本,應用hadoop用戶創建和配置設置。當然,你會在一個新的集羣上測試它,所以你不會破壞你的持久集羣。
該腳本需要在每個節點上運行,因此您可以scp或將其複製到s3,然後使用aws cli將其複製到每個節點,或使用@fmcmac建議的內容。我在line 38上看到它知道當前節點是否是主節點,因此它具有足夠的智能以便正確安裝。
它看起來已經更新幾年了,所以您需要檢查它正在安裝的版本&的依賴項版本,並且可能會進行一些調整。它似乎試圖從http://getdrill.org/drill/download獲得apache-drill-1.0.0.tar.gz,它應該是來自較新站點https://drill.apache.org/download/的v1.12.0,因此至少該部分需要更改。它還會安裝Zookeeper來運行Drill,因此如果zookeeper已經存在,Drill將需要作爲新的應用程序安裝,因此請檢查您是否已經在運行Zookeeper,如果嘗試在頂部安裝,版本兼容性可能會遇到問題仔細檢查。另外,EMR集羣被拆除,引導腳本&集羣配置和「步驟」使得這一點變得簡單。開機,運行工作,拆卸。這種方式更便宜。 「集羣是牛,而不是寵物」。即使您需要它爲分析師工作,也有一些時候它沒有被使用,因此會花費您的錢。
- 1. EMR羣集上沒有安裝Spark
- 2. 如何在AWS羣集上運行TensorFlow?
- 3. 如何在EMR集羣中運行/安裝oozie
- 4. 如何在現有的EMR集羣上運行EmrActivity?
- 5. 如何在現有Apache Spark獨立羣集上安裝Apache Zeppelin
- 6. 在hadoop集羣上安裝spark集羣
- 7. 在長時間運行的EMR集羣上設置AWS數據管道
- 8. OperationTimeoutException Cassandra集羣AWS/EMR
- 9. 如何在Linux羣集上安裝numpy?
- 10. 如何在AWS EMR上啓用SSO登錄到Apache Zeppelin EMR
- 11. AWS EMR在集羣中所有已運行的計算機上執行「引導」腳本
- 12. 在AWS EMR上運行Spark,如何在主節點上運行驅動程序?
- 13. 如何在EMR上安裝Cloudera impala?
- 14. 在AWS EMR羣集上使用SparkLauncher時缺少SPARK_HOME
- 15. 如何獲取AWS EMR羣集中某個步驟的狀態?
- 16. 在EMR上安裝GIT
- 17. 在EMR上安裝RStudio
- 18. 在已經運行的VPS上安裝Plesk
- 19. 如何在PC羣集上運行VMWare?
- 20. 如何在windows的amazon彈性mapreduce(emr)集羣上運行mapreduce作業?
- 21. AWS Data Pipeline配置EMR集羣運行Spark
- 22. AWS EMR上的Presto Sandbox集羣 - 添加連接器(catalog/.properties)
- 23. 在羣集上運行openmp
- 24. 如何在集羣上安裝多個顯卡上的軟件
- 25. 帶有火花的AWS DataPipeline EMR集羣
- 26. Amazon EMR上的sqoop安裝
- 27. 我可以像在本地羣集上一樣在EMR上運行作業
- 28. Amazon EMR集羣上的spark-csv錯誤
- 29. 如何通過AWS數據管道行在AWS EMR羣集中運行多個並行點火作業
- 30. AWS EMR集羣無法啓動