0
有人可以發佈一個ClusterSpec用於在YouTube-8m Challenge code中定義的模型的分佈式培訓嗎? The code嘗試從TF_CONFIG環境變量加載集羣規範。但是,我不確定TF_CONFIG的價值應該是什麼。我可以在一臺機器上訪問2個GPU,只需要運行具有數據級並行性的模型。如何爲分佈式YoutTube-8m挑戰訓練編寫集羣規範?
有人可以發佈一個ClusterSpec用於在YouTube-8m Challenge code中定義的模型的分佈式培訓嗎? The code嘗試從TF_CONFIG環境變量加載集羣規範。但是,我不確定TF_CONFIG的價值應該是什麼。我可以在一臺機器上訪問2個GPU,只需要運行具有數據級並行性的模型。如何爲分佈式YoutTube-8m挑戰訓練編寫集羣規範?
如果您想以分佈方式運行YouTube 8m挑戰碼,您必須編寫一個yaml文件(這裏有一個由Google提供的示例yaml文件),然後您需要將此yaml文件所在的參數。 TF_CONFIG引用用於訓練模型的配置變量。
例如,對於在谷歌運行以分佈式的方式雲的起始代碼,我使用:
JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S); gcloud --verbosity=debug ml-engine jobs \
submit training $JOB_NAME \
--package-path=youtube-8m --module-name=youtube-8m.train \
--staging-bucket=$BUCKET_NAME --region=us-east1 \
--config=youtube-8m/cloudml-gpu-distributed.yaml \
-- --train_data_pattern='gs://youtube8m-ml-us-east1/1/frame_level/train/train*.tfrecord' \
--frame_features=True --model=LstmModel --feature_names="rgb,audio" \
--feature_sizes="1024, 128" --batch_size=128 \
--train_dir=$BUCKET_NAME/${JOB_TO_EVAL}
參數配置是指向YAML文件cloudml-GPU-以下規格distributed.yaml:
trainingInput:
runtimeVersion: "1.0"
scaleTier: CUSTOM
masterType: standard_gpu
workerCount: 2
workerType: standard_gpu
parameterServerCount: 2
parameterServerType: standard