我想在CloudML上配置Tensorflow模型。當我使用tf.RunOptions(trace_level = tf.RunOptions.FULL_TRACE)時,我的進程因非零退出代碼而死亡,而沒有詳細說明發生了什麼。如果啓用性能分析,進程就會死亡
我試着添加和刪除打開此選項的代碼,並且此選項與進程死亡之間存在100%的相關性。
錯誤消息是'副本主數據0以非零狀態250退出。終止原因:錯誤。要詳細瞭解您退出工作的原因,請檢查日誌'
如何診斷和解決此問題?
我想在CloudML上配置Tensorflow模型。當我使用tf.RunOptions(trace_level = tf.RunOptions.FULL_TRACE)時,我的進程因非零退出代碼而死亡,而沒有詳細說明發生了什麼。如果啓用性能分析,進程就會死亡
我試着添加和刪除打開此選項的代碼,並且此選項與進程死亡之間存在100%的相關性。
錯誤消息是'副本主數據0以非零狀態250退出。終止原因:錯誤。要詳細瞭解您退出工作的原因,請檢查日誌'
如何診斷和解決此問題?
它通過使用tensorflow 1.1.0而不是1.0.0來修復。雖然沒有顯示分析信息。
對於你的問題,基本上退出狀態意味着你的代碼在運行時得到了SIGABRT。
更新: 有一個加載libcupti的問題。 Cloud ML Engine發現了一個與它相關的錯誤。修復正在進行中。這個問題將在未來的版本中得到解決。
我是Cloud ML Engine的工程師。對不起,麻煩你介意分享一個工作ID在這種情況發生?如果您不想公開發布,可以發送電子郵件至[email protected]。 –
@JeremyLewi感謝您的快速回復。這是一個玩具的例子,我只是學習tensorflow並在gpu上用cifar數據集進行實驗。工作ID是cifar_20170430_215857如果您需要其他信息,請告訴我。 –
@JeremyLewi有任何更新嗎? job_id是否幫助您重現問題?如果需要,我可以將您的整個代碼發送給您,以便重現它。 –