2011-08-22 40 views
0

我在目錄/ scratch/sharatds(掛載在NFS上)的機器上安裝了mpich1和UPC。配置MPI節點進行通信的問題

但是,當我試着初步運行它時,它曾經在單個機器(lagrid02)上運行良好。

當我嘗試在循環中包含其他機器(lagrid02-09)時,它會拋出錯誤。

rm_3521: p4_error: rm_start: net_conn_to_listener failed: 36394 
p0_30647: p4_error: Child process exited while making connection to remote process on lagrid03: 0 
p0_30647: (38.617188) net_send: could not write to fd=4, errno = 32 

如果你有一個想法,可能會出現什麼問題,你能建議我採取什麼措施來使它工作嗎?

回答

1

這是一個系統管理員問題,而不是編程問題。

首先 - mpich_1_?真? Mpich1自2005年以來未更新;我強烈建議使用mpich2。你不會發現許多人願意爲mpich1問題尋求幫助或支持。

至於跨節點的特定錯誤消息,有several reasons爲什麼MPI可能在節點之間進行通信時有麻煩:您是否擁有無密碼的ssh設置,以便您可以從lagrid02到lagrid03?各種機器上是否有防火牆?>