2015-03-31 87 views
2

我正在使用帶有8個處理器的Linux集羣,但我無法聯繫到它的管理員或任何更熟悉使用它的人。我試圖在所有節點上運行MPI程序,但是我無法在不知道名稱的情況下創建--machinelife文件。所以我的問題如下 - 我如何找到所有節點的名稱,只能從其中的一個寫入命令?它甚至有可能嗎?提前致謝。如何在Linux集羣上查找節點名稱

+0

該羣集上使用了哪些調度軟件?如果它使用PBS/Torque,則可以讀取文件'$ PBS_NODEFILE'。只需運行'cat $ PBS_NODEFILE'即可查看已分配給作業的所有節點的名稱。 – Patrick 2015-04-01 00:04:50

+0

您可以檢查頭節點的網絡配置,並嘗試猜測或掃描網絡以查找其他節點。大多數MPI實現將接受IP地址而不是主機名。另外,查看'/ etc/hosts' - 名字可能在那裏。無論如何,這個問題在這裏是無關緊要的,你應該在[超級用戶網站](http://superuser.com/)上提問。 – 2015-04-01 08:11:50

+0

謝謝你的關注,遺憾的是沒有一個工作。 cat $ PBS_NODEFILE結果只會斷開我(我正在使用WinSCP)。我不知道集羣使用什麼調度軟件。另外我無權訪問/ etc/hosts文件。似乎我需要使用我知道任何事情的羣集;] – PacoDePaco 2015-04-02 15:54:12

回答

0

如果您無法從註釋中描述的批處理調度系統獲取節點列表,那麼您可以通過啓動儘可能大的MPI作業並讓每個等級列印來解決該限制取出它的主機名。

+0

感謝您的建議!試過了,我只有約150個進程的名稱,輸入-np接近200返回的內存錯誤。 – PacoDePaco 2015-04-02 16:03:35

相關問題