2017-05-01 86 views
0

我想在CloudML上配置Tensorflow模型。當我使用tf.RunOptions(trace_level = tf.RunOptions.FULL_TRACE)時,我的進程因非零退出代碼而死亡,而沒有詳細說明發生了什麼。如果啓用性能分析,進程就會死亡

我試着添加和刪除打開此選項的代碼,並且此選項與進程死亡之間​​存在100%的相關性。

錯誤消息是'副本主數據0以非零狀態250退出。終止原因:錯誤。要詳細瞭解您退出工作的原因,請檢查日誌'

如何診斷和解決此問題?

+0

我是Cloud ML Engine的工程師。對不起,麻煩你介意分享一個工作ID在這種情況發生?如果您不想公開發布,可以發送電子郵件至[email protected]。 –

+0

@JeremyLewi感謝您的快速回復。這是一個玩具的例子,我只是學習tensorflow並在gpu上用cifar數據集進行實驗。工作ID是cifar_20170430_215857如果您需要其他信息,請告訴我。 –

+0

@JeremyLewi有任何更新嗎? job_id是否幫助您重現問題?如果需要,我可以將您的整個代碼發送給您,以便重現它。 –

回答

0

它通過使用tensorflow 1.1.0而不是1.0.0來修復。雖然沒有顯示分析信息。

0

對於你的問題,基本上退出狀態意味着你的代碼在運行時得到了SIGABRT。

更新: 有一個加載libcupti的問題。 Cloud ML Engine發現了一個與它相關的錯誤。修復正在進行中。這個問題將在未來的版本中得到解決。