我們無法在具有3臺以上機器的Open MPI羣集中運行程序。使用多於3臺主機設置羣集時發生MPI錯誤
如果我們運行:
mpirun --host master,slave5,slave3 ./cluster
它的工作原理。
如果我們運行:
mpirun --host master,slave4,slave3,slave5 ./cluster
我們得到以下錯誤:
ssh: Could not resolve hostname slave5: Temporary failure in name resolution
儘管事實上,它看起來像一個名稱解析錯誤,實在不行,因爲slave5工程對第一個命令。
到目前爲止,我們已經看到其他人報告相同的錯誤,沒有任何解決方案。例如:
任何想法?
你有沒有正確設置/ etc/hosts中每個主機上的文件(或DNS)(後所有4個文件在這裏)?當'ping'與目標主機的名稱(這是目標主機上的'hostname'命令返回)一起使用時,每個主機是否可以ping每個其他主機? – osgx
鏈接的郵件列表線程中的第一個響應提供了一種解決方法。這是否解決了你的問題? –
這個問題很常見,因爲我在一些論壇上看到這裏看看https://www.mail-archive.com/[email protected]/msg29784.html 但idont認爲這將有所幫助。 –