1
我正在使用numpy在使用sun grid engine分發作業的羣集上運行多個相同作業的重複(星羣)。我的每個節點都有2個核心(AWS上的c3.large)。所以說我有5個節點,每個節點有2個核心。Sun Grid Engine,每個節點強制執行一個作業
numpy中的矩陣運算能夠一次使用多個核心。我發現SGE將派出10個工作立即運行,每個工作都使用一個核心。這會導致作業的運行時間延長。看着htop,看起來每個核心的兩個職位都在爭奪資源。
如何讓qsub爲每個節點分配1個作業?所以當我提交工作時,只有5個會同時運行,而不是10個?
「編輯:這是如何爲每個節點配置它。您可以爲整個羣集完成它步驟1將該值設置爲「默認」列爲1.「這正是我想要做的。我嘗試過,但它仍然立即啓動了10個作業,而不是5個。我是否需要運行「excl」命令? –
然後在啓動工作時,請執行:「qrsh -l exclusive = 1 qsub -e ...」那樣的..? –
不,qsub和qrsh都是推出工作的工具。 qsub分離,qrsh是互動的。所以你可以在示例中用qsub替換qrsh。 –