2017-03-13 53 views

回答

2

嘗試在srun命令末尾添加|| scontrol requeue $SLURM_JOB_ID,以便如果失敗並返回非零輸出代碼,則會重新排定作業並重新排定作業。您可以使用$SLURM_RESTART_COUNT跟蹤重新啓動的次數。