如何爲分佈式YoutTube-8m挑戰訓練編寫集羣規範？

有人可以發佈一個ClusterSpec用於在YouTube-8m Challenge code中定義的模型的分佈式培訓嗎？ The code嘗試從TF_CONFIG環境變量加載集羣規範。但是，我不確定TF_CONFIG的價值應該是什麼。我可以在一臺機器上訪問2個GPU，只需要運行具有數據級並行性的模型。如何爲分佈式YoutTube-8m挑戰訓練編寫集羣規範？

來源

2017-04-13 Sahil

如果您想以分佈方式運行YouTube 8m挑戰碼，您必須編寫一個yaml文件（這裏有一個由Google提供的示例yaml文件），然後您需要將此yaml文件所在的參數。 TF_CONFIG引用用於訓練模型的配置變量。

例如，對於在谷歌運行以分佈式的方式雲的起始代碼，我使用：

JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S); gcloud --verbosity=debug ml-engine jobs \ 
 
submit training $JOB_NAME \ 
 
--package-path=youtube-8m --module-name=youtube-8m.train \ 
 
--staging-bucket=$BUCKET_NAME --region=us-east1 \ 
 
--config=youtube-8m/cloudml-gpu-distributed.yaml \ 
 
-- --train_data_pattern='gs://youtube8m-ml-us-east1/1/frame_level/train/train*.tfrecord' \ 
 
--frame_features=True --model=LstmModel --feature_names="rgb,audio" \ 
 
--feature_sizes="1024, 128" --batch_size=128 \ 
 
--train_dir=$BUCKET_NAME/${JOB_TO_EVAL}

參數配置是指向YAML文件cloudml-GPU-以下規格distributed.yaml：

trainingInput: 
 
    runtimeVersion: "1.0" 
 
    scaleTier: CUSTOM 
 
    masterType: standard_gpu 
 
    workerCount: 2 
 
    workerType: standard_gpu 
 
    parameterServerCount: 2 
 
    parameterServerType: standard

來源

2017-08-05 12:00:40

如何爲分佈式YoutTube-8m挑戰訓練編寫集羣規範？

回答

相關問題