2013-10-11 599 views
2

我想查看集羣上運行的所有最新作業(完成,失敗和正在運行)。我還希望看到每個作業1個條目。執行sacct會爲每個作業重新生成3行,其格式爲State: FAILED, FAILED, COMPLETED。這是什麼意思,我如何查看我想看到的實際信息?SLURM中的作業狀態

我不明白trueJobName是什麼意思。

這裏是輸出的副本:

JobID JobName Partition Account AllocCPUS  State ExitCode 
------------ ---------- ---------- ---------- ---------- ---------- -------- 
2160852    R interact cluster_u+   2 COMPLETED  0:0 
2160864    R interact cluster_u+   2 COMPLETED  0:0 
2161424    R interact cluster_u+   2 COMPLETED  0:0 
2161430    R interact cluster_u+   0 CANCELLED+  0:0 
2161431    R interact cluster_u+   2 COMPLETED  0:0 
2161668    R interact cluster_u+   2 COMPLETED  0:9 
2161682   myjob+ general cluster_u+   2  FAILED  1:0 
2161682.bat+  batch   cluster_u+   1  FAILED  1:0 
2161682.0   true   cluster_u+   1 COMPLETED  0:0 
2161683   myjob+ general cluster_u+   2  FAILED  1:0 
2161683.bat+  batch   cluster_u+   1  FAILED  1:0 
2161683.0   true   cluster_u+   1 COMPLETED  0:0 

提交腳本(注%>由R中包BatchJobs處理在<%該值):

#!/bin/bash 
#SBATCH -J <%= job.name %>   # name of the job 
#SBATCH -p general 
#SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes 
#SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes 


eval "R --vanilla --slave < <%= rscript %>" 

回答

2

sacct將打印一個每作業一行,隨後在該作業中每作業一行。

2161683   myjob+ general cluster_u+   2  FAILED  1:0 <- the job 
2161683.bat+  batch   cluster_u+   1  FAILED  1:0 <- the batch script 
2161683.0   true   cluster_u+   1 COMPLETED  0:0 <- the R step 

作業狀態失敗,因爲腳本本身狀態失敗。腳本中有一個工作步驟,並且它正確終止。

我經常求助於sacct |grep -v "^[0-9]*\."以獲得工作信息。

+0

我只是把一個輸出的副本,謝謝! – Alex

+0

另外,什麼是「工作步驟」? – Alex

+0

廣義上講,如果你的工作由幾個命令組成,每一個都是一個工作步驟。 – damienfrancois