2017-07-30 58 views
0

首先,我有keypairs,雖然涉及到ssh,但這不是一個密碼問題。runtime-lamboot建議我自動化ssh - Ubuntu

我也有MPICH,Hydra,SLURM和lamd ...這是一個集羣計算問題。

Node0將啓動,但node1掛起。我已經有這個問題好幾天了。我的nfs鏡像工作的很好,我可以在node2上的8個核心上運行Game of ...這真的很酷,只是問我一下吧...

但是,當我想要在所有三個節點我一起點擊來自每個節點的密碼請求,因爲node0使用ssh發送進程。同樣,不是密碼問題,HYDRA(slurm和lamd也是)希望從node1獲得我的用戶密碼。基本上我的登錄憑證。我可以將其更改爲MPICHuser帳戶;然而,困境仍將存在。

除非我在所有三個沒有密碼的節點上創建MPICHusers ......可以這樣做嗎?這似乎是安全風險的縮影。

所以問題是,無論何時以不會掛起lamboot的方式彈出密碼憑證,我是否可以自動執行密碼憑證?

現在已經很晚了,看着我有什麼讓我想知道如果slurm是新的罪魁禍首。

這裏是多了還是少了什麼我在看:

我@何:/鏡像/ GameOfLife $ mpiexec.hydra -f /鏡像/ machinefile -n 10 ./life 10 10 30

[@ mpiexec的地方] HYDU_process_mfile_token(utils的/ ARGS/args.c:296):在這個時候,不支持令牌NODE0

[@ mpiexec的地方] HYDU_parse_hostfile(utils的/ ARGS/args.c:343):無法處理代幣

[mpiexec @ wherever] mfile_fn(ui/mpich/utils.c:336):error pa rsing HOSTFILE

[@ mpiexec的地方] match_arg(utils的/ ARGS/args.c:152):匹配處理程序返回錯誤

[@ mpiexec的地方] HYDU_parse_array(utils的/ ARGS/args.c:174):參數匹配返回錯誤

[@ mpiexec的地方] parse_args(UI/MPICH/utils.c:1596):錯誤解析輸入數組

[@ mpiexec的地方] HYD_uii_mpx_get_parameters(UI/MPICH/utils.c:1648 ):無法解析用戶參數

[mpiexec @ wherev er] main(ui/mpich/mpiexec.c:153):error解析參數 me @ wherever:/ mirror/GameOfLife $

+0

在引擎蓋下,可能會使用產卵樹。這意味着如果您有3個主機節點[0-2],node0將ssh node1,然後node0可能ssh node2,或node1可能ssh node2。底線,任何主機應該能夠ssh任何主機 –

回答

0

這不是問題。 我期待着Slurm的可比性。幾個事情幾乎同時發生在一個特定的順序。處理程序必須立即進行終端控制,以便主節點可以開始發送。 在我添加Slurm之前,hydra machinefile工作正常,但node0無法「抓住」鍵盤。 Slurm應該在哪裏尋找等效文件? 我想知道如果我應該刪除九頭蛇。

+1

請避免使用答案評論你的問題或討論。使用原始帖子的編輯,評論或聊天。 – Gasper

+0

您正在使用哪個MPI?你還可以發佈你的'/ mirror/machinefile'的內容嗎? –

+0

昨晚我看到Slurm在每臺機器上都創建了一個用戶帳戶。機器文件沒有什麼特別之處,只是節點名稱和CPU數量。 Hydra發現它。一次只發生許多事情。我使用KVM切換器來共享終端,鼠標和鍵盤。 Slurm沒有按照我的預期使用。我今晚可以試試srun。但我已經知道munge引導只能迴應到一臺機器,而不是全部三臺。幾個星期前,我大部分時間都在工作 - 在添加KVM之前。 mpich較老,我故意這樣做。它是3.0.1,我下載了它旁邊的九頭蛇。 –