slurm

    0熱度

    1回答

    我使用的系統發育軟件稱爲RAxML和我wnat爲每個phylip文件構建單樹。對於有三個PHYLIP文件的目錄,我做了以下 ##files in directory Ortho1.phy Ortho6.Phy Ortho6.Phy for f in /home/Single_trees/trimmed_alignment/*.phy; do raxmlHPC -f a -x 100 -m P

    0熱度

    1回答

    如何監視每個正在運行的線程/進程?基本上,我希望看到類似於由top,或ps給出的輸出:如每個線程的CPU使用率,由進程的內存使用,等等。 在SLURM,有命令sstat,其中我可以查看工作統計。例如,它允許我檢查提交的作業請求的總CPU時間(用戶+系統),RSS以及CPU頻率。它不包括詳細的每個進程(或線程)信息。

    1熱度

    2回答

    我有一個4 * 64的CPU集羣。我安裝了SLURM,它似乎在工作,好像我打電話給sbatch,我得到了正確的分配和隊列。但是,如果我使用超過64個核心(基本上超過1個節點),它完全分配正確數量的節點,但如果我將ssh分配到節點中,我只能看到其中一個節點中的實際工作。其餘的只是坐在那裏無所事事。 我的代碼很複雜,它使用multiprocessing。我打電話給300名工人,所以我想這不應該成爲問題

    1熱度

    1回答

    我正在使用應該設置爲允許基於QOS搶佔的SLURM集羣,但我不確定它是否正確完成。說這樣做是正確的,我們想要搶佔另一個QOS的每個QOS都必須明確列出它可以搶佔的那些QOS?換句話說,如果我運行$ sacctmgr list qos format==name,priority,preempt而「搶佔」列是空的,那麼我們實際上做的不是已經啓用了基於QOS的搶佔,不管事實如何,PreemptType

    1熱度

    2回答

    我正在尋找一種方式來獲得所經過的時間輸出始終包括天,此刻我不能看到遠在限定輸出格式,所以我期待在使用切割時,awk, sed或類似命令在輸出生成後執行此操作。 所以任何想法如何,我可以改變輸出,如: JobID|Partition|User|State|Elapsed| 902464|interactive-a|bob|COMPLETED|10-00:10:40 968491|interact

    0熱度

    1回答

    我面臨着以下問題: 我的模塊需要管理一個SLURM給予羣集上的一些工作。整批使用--multiprog啓動。 其中之一使用rabbitMQ連接,並可悲地不能完成優雅(不是我的決定)。結果,這個子工作會在整個批次被slurm關閉時留下一個「殭屍」工作。更糟的是,它發送一個保持rabbitMQ連接的心跳,等等。 實質上,我需要在每一份工作之後進行殭屍追捕。我試圖用一個簡單的epilog(killall

    1熱度

    2回答

    我在努力尋找有關的一般HPC集羣的平均硬件利用率的全面報告。 Google或Facebook提供了各種數據集,以瞭解他們的雲硬件利用情況,但是有沒有類似的報告/數據集供我從HPC中心引用或查看。 我的重點是看他們是否通過粗糧資源管理器一樣SLURM,或扭矩運行尾如何動態的,長期的工作會受到影響。我知道這兩個資源管理器都支持細粒度執行,但它們不提供像Mesos或Yarn這樣的資源管理器的全面API。

    4熱度

    2回答

    在SLURM集羣上,可以使用squeue來獲取有關係統上作業的信息。我知道「R」意思是r unning;和「PD」意思是p en d ing,但什麼是「CG」? 我知道這是從經驗中「取消」或「失敗」,但是當成功工作時「CG」適用c失去了嗎?什麼是G?

    0熱度

    1回答

    我試圖從python腳本調用SLURM squeue。該命令, /usr/bin/squeue --Format=username,jobid,name,timeleft 命令行 工作正常,但是從subprocess.Popen失敗: p = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

    0熱度

    1回答

    是否可以擴大SLURM中命令sacct的JobName列中使用的字符數? 例如,我目前有: JobID JobName Elapsed NCPUS NTasks State ------------ ---------- ---------- ---------- -------- ---------- 12345 lengthy_na+ 00:00:01 4 1 FAILE