2014-09-30 31 views
2

我校園中的集羣使用PBS TORQUE進行作業管理。排除TORQUE qsub請求中的特定節點

在軟件中有幾個節點已過時。如果我的作業被髮送到其中一個節點,它將會失敗。有沒有辦法在作業請求中排除特定節點(或節點列表)?

+1

您可以指定特定節點或要運行的節點列表,但這會非常有限。我會要求管理員將屬性分配給最新的節點,然後您可以請求具有該屬性的節點的子集。你可以在這裏找到語法:http://docs.adaptivecomputing.com/torque/4-1-3/Content/topics/2-jobs/requestingRes.htm – chuck 2014-09-30 21:46:39

+0

@chuck管理員非常忙於其他的東西,並採取方式迴應時間太長,通常只是不注意這些事情。我如何指定我的工作可以運行的* alternative *節點列表? – becko 2015-04-02 14:24:22

回答

0

我不確定你可以指定一個你的工作可以選擇的集合。您可以指定一個節點列表,但您必須等待所有節點在作業運行之前變爲空閒。根據你需要排除的節點數量,你可以做這樣的事情。

cat $PBS_NODEFILE | grep -v badnode1 |grep -v badnode2 > goodnodes NP=wc -l goodnodes #need back ticks around "wc -l goodnodes" mpirun -np $NP -machinefile goodnodes ./a.out

,如果你在收取資源的任何方式,但它應該可以幫助您得到您的作業運行這是不理想的。