slurm

    1熱度

    1回答

    作爲管理員我需要給予給定工作的最大優先級。 我發現提交選項如:--priority=<value>或--nice[=adjustment]可能很有用,但我不知道應該將它們分配給哪些值才能提供具有最高優先級的作業。 另一種方法可能是將默認設置爲低優先級設置爲所有作業,特殊設置將其增加。 任何想法,我可以如何執行它? 編輯:我正在使用調度/回填策略和默認作業優先級策略(FIFO)。 謝謝。

    2熱度

    2回答

    我想運行一個機器上的多個工人守護進程。根據damienfrancois's回答what is the minimum number of computers for a slurm cluster它可以完成。問題是目前我能夠在一臺機器上只執行一個工作守護進程。例如 當我運行 sudo slurmd -N linux1 -cDvv sudo slurmd -N linux2 -cDvv lin

    0熱度

    1回答

    我試圖用SLURM作業調度程序提交作業傳遞和我發現,當我用--export=VAR=VALUE語法,然後我的一些變量沒有被通過(通常在第一時間變量的export)。我的理解是我需要爲每個變量指定--export=...,例如 sbatch --export=build=true --export=param=p100_256 run.py 我的劇本「run.py」看起來是這樣的: #! /us

    1熱度

    1回答

    我有幾個腳本發送到使用sbatch訪問的集羣。但是,我想暫停這些運行腳本,而不必取消他們的工作,因爲他們已經運行了一段時間了。 有沒有辦法保持/暫停當前運行的作業而不取消他們已經完成的作業? 我the following website發現一個可以暫停他們: To pause a particular job: scontrol hold <jobid> 不過,我還是有點不確定如何使它與工

    1熱度

    1回答

    我想在slurm上運行一些並行代碼,其中不同進程不需要進行通信。天真地我使用了python的slurm包。但是,似乎我只在一個節點上使用cpu。 例如,如果我有4個節點,每個節點有5個CPU,我將只同時運行5個進程。我怎樣才能告訴多處理在不同的節點上運行? 的Python代碼如下所示 import multiprocessing def hello(): print("Hello W

    0熱度

    1回答

    我目前正在使用基於Linux的HPC,它只使用SLURM提交作業,而HPC只允許作業運行12小時。不過,我可能需要連續運行24個工作一週,才能取得好成績。 是否有辦法在完成後再次(自動)運行作業? 親切的問候 地址: 當任務完成後,將創建一個.out文件。換句話說,.out文件的數量將增加1. 當.out數增加時,是否可以重新執行作業? #!/bin/bash #! #! Example SL

    0熱度

    1回答

    我正在使用slurm,並且想查找我當前進程允許使用的cpu_ids和max memory。 有沒有辦法解決這個問題?

    0熱度

    1回答

    從正在運行的作業中獲取有效CPU ID的最佳方式是什麼? 我的想法是做一個分配 - >用分配限制包裝docker命令 - >在遠程gpu服務器上運行nvidia-docker。 要限制碼頭到分配我需要告訴它cpu_ids。 我的作業提交的樣子: sbatch -o test.txt -c2 -n 10 --mem=10GB --wrap="job that needs the cpu_ids"

    0熱度

    2回答

    我的同事們,我考慮購買一個新的服務器深度學習與SXM2 NVlink等。 因爲它的power8架構,我希望建立一個通常的堆棧上的一些困難,例如。 docker + tensorflow深度學習框架。 擁有別人的經驗,如果下面的安裝程序將工作或我一定要想到困難/不可能的事? SXM2能量8 - 4 NVLINK O數x P100 GPU:Ubuntu的14.04/16.04裸 金屬安裝 經由SLUR

    0熱度

    2回答

    目標: 學習如何運行或共同計劃或執行操作/使用或者SRUN或的mpirun 研究與sbatch作業提交 應用: 代碼段: #!/bin/bash #SBATCH --job-name LEBT #SBATCH --partition=angel #SBATCH --nodelist=node38 #SBATCH --sockets-per-node=1 #SBATCH --cores-p