slurm

    5熱度

    1回答

    我正在使用由slurm管理的集羣運行一些yarn/hadoop基準。爲此,我在由slurm分配的節點上啓動hadoop服務器,然後在其上運行基準測試。我意識到這不是運行生產hadoop集羣的預期方式,但需要。 要做到這一點,我開始寫一個腳本,運行srun例如srun -N 4 setup.sh。該腳本寫入配置文件並在分配的節點上啓動服務器,其中編號最小的機器充當主節點。這一切正常,我可以運行應用程

    2熱度

    1回答

    我想查看集羣上運行的所有最新作業(完成,失敗和正在運行)。我還希望看到每個作業1個條目。執行sacct會爲每個作業重新生成3行,其格式爲State: FAILED, FAILED, COMPLETED。這是什麼意思,我如何查看我想看到的實際信息? 我不明白true的JobName是什麼意思。 這裏是輸出的副本: JobID JobName Partition Account AllocCPUS

    3熱度

    1回答

    這是一個長期的問題,所以我會給出一個總結第一: 我在並行編程和電網系統的新。我想在我有一個帳戶的網格中運行http://jeremybejarano.zzl.org/MPIwithPython/introMPI.html中的第一個示例。有一個由維護人員提供的C示例。我可以運行它。但是對於python版本,我得到了所有等級的零。可能是什麼問題? 龍版的問題: 我有這樣的代碼用Python編寫的2.7

    8熱度

    1回答

    我試圖從另一個文件中獲取一個值,並在SLURM提交腳本中使用它。但是,我得到的值是非數值的錯誤,換句話說,它沒有被取消引用。 下面是腳本: #!/bin/bash # This reads out the number of procs based on the decomposeParDict numProcs=`awk '/numberOfSub

    4熱度

    2回答

    我曾經使用LSF服務器,但現在我只是轉換到SLURM服務器。 SLURM中bpeek(用於LSF)的等效命令是什麼? bpeek bpeek顯示未完成作業的輸出和錯誤輸出 我找不到任何地方的文檔。如果你對SLURM有一些很好的參考,請讓我知道。謝謝!

    2熱度

    1回答

    我們的集羣正在使用SLURM來管理我們的作業隊列。 Slurm正在監控每個帳戶使用的核心小時數,並且會優先考慮從使用超過分配的核心小時數的帳戶提交的作業。 slurm中是否有一條命令會顯示我的賬戶限制?我想知道我可以使用的核心小時數,然後再優先考慮。

    0熱度

    1回答

    我創建了許多程序,我想從中測量完成所需的時間。因此我想在一個節點上運行一個任務。我們有10個節點,每個節點有2個插座。無論我將哪些選項傳遞給sbatch和srun,SLURM似乎都爲每個套接字安排1個任務,而不是每個節點1個任務。我應該使用哪些選項? 我開始我的批處理腳本sbatch run-experiments run-experiments包含: #SBATCH -N10 --ntasks-