在指定「scale-tier STANDARD_1」後,使用REMOTE分佈式命令運行張量流: 。批次運行失敗.... 現在,我只能用簡單的單節點運行「規模級= BASIC」谷歌毫升引擎秤級未在遠程分佈式培訓中運行
gcloud ml-engine jobs submit training census_20171005_162623
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job-
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ --
region us-central1 -- --train-files
gs://cloudml-public/census/data/adult.data.csv --eval-files
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000
--eval-steps 100
我得到的錯誤是
The replica worker 1 exited with a non-zero status of 1. Termination reason: Error.
從日誌:例外的gsutil命令 '[' 的gsutil」, '-q', 'CP',
u'gs後
重試:// dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/TRAI NER-0.0.0.tar.gz」, u'trainer-0.0.0.tar.gz ']' 返回非零退出狀態1.
大師沒有成功初始化和copued包「 trainer-0.0.0.tar.gz「 但是,當副本複製包運行時發生問題。 似乎ML工作流程失敗,以處理副本清理.... 複製品試圖在運行之前再次清理作業目錄 「gs:// dextest/census_20171005_162623」 。
發生錯誤後,主複製包和 副本失敗拿起包運行。
我CommandException:沒有匹配的網址: GS:gsutil會異常命令 '[' 後的gsutil //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz è重試」, '-q' ,'cp', u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz', u'trainer-0.0.0.tar.gz']'返回的非零退出狀態1.
undefined