2012-05-26 153 views
3

我在一個condor集羣上運行作業,但有些掛在空閒狀態,似乎永遠無法啓動,更不用說完成了。缺少手動執行condor_wait -wait n logfile,然後condor_rm,是否有一種更優雅(和自動,內置)終止掛起作業的方式?Condor超時空閒作業

相反,由於這些工作是在一個匕首,是否有辦法超時工作在一個匕首,以便後來的工作可以運行?

回答

2

以下是導致作業在空閒時間過長(本例中爲24小時)後自動刪除的兩種方法。

  1. 放入作業的提交文件如下:

    periodic_remove = JobStatus == 1 & & CURRENTTIME-EnteredCurrentStatus> 3600 * 24

  2. 或者放在禿鷹配置如下提交機器上的文件:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 & & CurrentTime-EnteredCurrentSt atus> 3600 * 24

當然,理解爲什麼作業仍處於空閒狀態會更好。要做到這一點,您可能會發現condor_q -analyze jobid有幫助。