回答

4

不幸的是,Dataproc的啓動圖像是沒有Snappy支持而構建。我已經打開了一個錯誤來修復下一張圖片。

一種解決方法:

  1. 首先創建一個小的shell腳本,妥善安裝活潑和它的本地庫的支持。爲此,我們將使用bdutil使用的相同本機庫。我打電話給我的劇本setup-snappy.sh

    #!/bin/bash 
    
    pushd "$(mktemp -d)" 
    apt-get install -q -y libsnappy1 
    wget https://storage.googleapis.com/hadoop-native-dist/Hadoop_2.7.1-Linux-amd64-64.tar.gz 
    tar zxvf Hadoop_2.7.1-Linux-amd64-64.tar.gz -C /usr/lib/hadoop/ 
    
  2. 複製新的shell腳本到你自己的GCS桶內。出於演示的目的,我們假設水桶dataproc-actions

    gsutil cp ./setup-snappy.sh gs://dataproc-actions/setup-snappy.sh 
    
  3. 當啓動一個集羣,指定初始化動作:

    gcloud beta dataproc clusters create --initialization-actions gs://dataproc-actions/setup-snappy.sh mycluster 
    
+0

感謝安格斯,我可以證實這一點爲我們工作!順便說一句,你的最後一個命令有一個小的錯字,它應該是'gcloud beta數據集羣創建 - 初始化 - 行動gs://dataproc-actions/setup-snappy.sh mycluster' – aeneaswiener

+0

感謝您指出。更新了命令。 –

0

我沒有這個做自己,但this post應該解決您的問題:

安裝和配置bdutil支持的擴展機制等系統級組件。擴展的一個很好的例子是與bdutil:extensions/spark/spark_env.sh捆綁在一起的Spark擴展。當運行bdutil擴展與-e標誌如添加,與Hadoop的部署星火:

./bdutil -e擴展/火花/ spark_env.sh部署

相關問題