回答

1

最好的選擇是使用類似Kubernetes的東西。這是一項正在進行的工作,但我相信它也支持分佈式培訓 - https://github.com/tensorflow/k8s

或者更多低技術含量的自動化選項,這些浮現在腦海中......

  1. 你可以有它仍然使用SSH或遠程執行腳本的腳本。
  2. 您可以讓每個工作人員輪詢文件的共享位置,以用作下載和執行腳本的信號。
-1

您可以設置環境變量TF_CONFIG,這將由估計器進行解析。

+0

我知道它是如何工作的。但是,最簡單的方法是什麼?我不想讓每一臺機器都進入ssh,然後手動運行這些腳本。 –