如果作業失敗，我該如何自動執行SLURM的作業？

我必須運行300個相同型號的工作（黑匣子）。然而，有時分割故障模型內發生與以下錯誤消息：如果作業失敗，我該如何自動執行SLURM的作業？

srun: error: nodexyz: task 0: Segmentation fault

集羣利用SLURM如資源管理器，我想，如果出現故障時自動重新排隊這項工作。

2017-03-13 w.eric

嘗試在srun命令末尾添加|| scontrol requeue $SLURM_JOB_ID，以便如果失敗並返回非零輸出代碼，則會重新排定作業並重新排定作業。您可以使用$SLURM_RESTART_COUNT跟蹤重新啓動的次數。

2017-03-13 20:40:16 damienfrancois

回答