我試圖在使用MPI的集羣上運行作業(python代碼)。每個節點上有63GB的可用內存。 當我在一個節點上運行它,我指定與(只有相關的參數在這裏列出)PBS參數:PBS:在兩個節點上的作業使用的內存只有一個
#PBS -l mem=60GB
#PBS -l nodes=node01.cluster:ppn=32
time mpiexec -n 32 python code.py
比工作得很好。
由於PBS手冊頁說:mem
是每整個作業的記憶裏,參數試圖在兩個節點上運行它時,是
#PBS -l mem=120GB
#PBS -l nodes=node01.cluster:ppn=32+node02.cluster:ppn=32
time mpiexec -n 64 python code.py
這不起作用(qsub: Job exceeds queue resource limits MSG=cannot satisfy queue max mem requirement
)。即使我設置了mem=70GB
(例如系統需要更多內存),它也會失敗。 如果我設置mem=60GB
試圖用兩個節點的時候,我得到
=>> PBS: job killed: mem job total xx kb exceeded limit yy kb.
我pmem
嘗試它,以及(這是pmem=1875MB
),但沒有成功。
我的問題是:如何使用整個120GB的內存?