3

在指定「scale-tier STANDARD_1」後,使用REMOTE分佈式命令運行張量流: 。批次運行失敗.... 現在,我只能用簡單的單節點運行「規模級= BASIC」谷歌毫升引擎秤級未在遠程分佈式培訓中運行

gcloud ml-engine jobs submit training census_20171005_162623 
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job- 
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ -- 
region us-central1 -- --train-files 
gs://cloudml-public/census/data/adult.data.csv --eval-files 
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000 
--eval-steps 100 

我得到的錯誤是

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error. 

從日誌:例外的gsutil命令 '[' 的gsutil」, '-q', 'CP',
u'gs後

重試:// dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/TRAI NER-0.0.0.tar.gz」, u'trainer-0.0.0.tar.gz ']' 返回非零退出狀態1.

大師沒有成功初始化和copued包「 trainer-0.0.0.tar.gz「 但是,當副本複製包運行時發生問題。 似乎ML工作流程失敗,以處理副本清理.... 複製品試圖在運行之前再次清理作業目錄 「gs:// dextest/census_20171005_162623」 。

發生錯誤後,主複製包和 副本失敗拿起包運行。

我CommandException:沒有匹配的網址: GS:gsutil會異常命令 '[' 後的gsutil //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz è重試」, '-q' ,'cp', u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz', u'trainer-0.0.0.tar.gz']'返回的非零退出狀態1.
undefined

回答

1

從您的錯誤信息中可以明顯看出年齡(「副本工作者1以非零狀態退出1.終止原因:錯誤。」)您有一些編程錯誤(語法,未定義等)。

檢查return code table

Return code -------------Meaning--------------- Cloud ML Engine response 

0 Successful completion Shuts down and releases job resources. 
1 - 128 Unrecoverable error Ends the job and logs the error. 

找到了這個錯誤並修復它,然後再試一次。

我建議在您在雲中提交之前在本地運行您的任務(如果您的配置支持)。如果您發現任何錯誤,您可以在本地機器上輕鬆修復。

相關問題