Q

在分佈式張量流列車上運行多個模型的步驟messd

2017-07-04 63 views -1 likes

-1

我試圖構建a distribute tensorflow framwork template，但有些問題困擾着我。在分佈式張量流列車上運行多個模型的步驟messd

當我在script使用--sync_replas=True，這是否意味着我用Synchronous training在doc？
爲什麼worker_0.log和worker_1.log 中的全局步驟不是連續遞增？
爲什麼全球一步不是從0開始，但像這樣

1499169072.773628: Worker 0: training step 1 done (global step: 339)

什麼training step和global step之間的關係？

正如您從create cluster script所看到的，我創建了一個獨立的羣集。我可以同時在此羣集上運行多個不同的模型嗎？

2017-07-04 haiy

A

回答

-1

可能，但取決於特定的庫
在分佈式訓練很可能有競爭條件，因此增量和全局步的讀取不完全有序。這可以。
這可能是因爲您正在從檢查點加載？
不清楚，取決於您正在使用的庫
每個羣集一個模型更容易管理。不過，在同一臺機器上創建多個tf集羣也可以。

2017-07-05 14:59:33

相關問題