1
我必須運行300個相同型號的工作(黑匣子)。然而,有時分割故障模型內發生與以下錯誤消息:如果作業失敗,我該如何自動執行SLURM的作業?
srun: error: nodexyz: task 0: Segmentation fault
集羣利用SLURM如資源管理器,我想,如果出現故障時自動重新排隊這項工作。
我必須運行300個相同型號的工作(黑匣子)。然而,有時分割故障模型內發生與以下錯誤消息:如果作業失敗,我該如何自動執行SLURM的作業?
srun: error: nodexyz: task 0: Segmentation fault
集羣利用SLURM如資源管理器,我想,如果出現故障時自動重新排隊這項工作。
嘗試在srun
命令末尾添加|| scontrol requeue $SLURM_JOB_ID
,以便如果失敗並返回非零輸出代碼,則會重新排定作業並重新排定作業。您可以使用$SLURM_RESTART_COUNT
跟蹤重新啓動的次數。