2017-07-04 63 views
-1

我試圖構建a distribute tensorflow framwork template,但有些問題困擾着我。在分佈式張量流列車上運行多個模型的步驟messd

  1. 當我在script使用--sync_replas=True,這是否意味着我用Synchronous trainingdoc
  2. 爲什麼worker_0.logworker_1.log 中的全局步驟不是連續遞增?
  3. 爲什麼全球一步不是從0開始,但像這樣

1499169072.773628: Worker 0: training step 1 done (global step: 339)

  • 什麼training stepglobal step之間的關係?

  • 正如您從create cluster script所看到的,我創建了一個獨立的羣集。我可以同時在此羣集上運行多個不同的模型嗎?

  • 回答

    -1
    1. 可能,但取決於特定的庫
    2. 在分佈式訓練很可能有競爭條件,因此增量和全局步的讀取不完全有序。這可以。
    3. 這可能是因爲您正在從檢查點加載?
    4. 不清楚,取決於您正在使用的庫
    5. 每個羣集一個模型更容易管理。不過,在同一臺機器上創建多個tf集羣也可以。
    相關問題