1
有沒有辦法找出工作被slurm取消的原因?我想區分資源限制因所有其他原因而受到影響的情況(如手動取消)。如果遇到資源限制,我也想知道哪一個。訪問slurm停止工作的原因
有沒有辦法找出工作被slurm取消的原因?我想區分資源限制因所有其他原因而受到影響的情況(如手動取消)。如果遇到資源限制,我也想知道哪一個。訪問slurm停止工作的原因
slurm日誌文件明確包含該信息。它也被寫入作業的輸出文件的東西,如:
JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT
或
Job <jobid> exceeded <mem> memory limit, being killed:
或
JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE
等