0
這類似於互聯網上的幾個問題,但是這個代碼似乎是工作了一段時間,而不是立即返回一個錯誤,這表明對我來說,這也許不僅僅是主機文件錯誤?誤差mpi4py一段時間產卵後,如何調試
我正在運行產卵,然後每創建一個循環,在其中他們與BCAST和散射發送一些數據的多個MPI程序代碼,然後從這些進程收集數據。這運行算法並保存數據。然後它從產生的comm斷開,並在下一個循環創建另一組spawns。這工作了幾分鐘,再經過大約300文件,它會吐出了這一點:
[T7810:10898] [[50329,0],0] ORTE_ERROR_LOG: Not found in file ../../../../../orte/mca/plm/base/plm_base_launch_support.c at line 758
--------------------------------------------------------------------------
mpirun was unable to start the specified application as it encountered an error.
More information may be available above.
我的本地機(單節點)上測試這一點,所以最終的部署將有多個節點每次產卵說他們自己在該節點內的mpi進程。我試圖弄清楚這是否是在本地計算機上測試多個節點的問題,並且可以在HPC上正常工作,或者是更嚴重的錯誤。
我該如何調試?是否有辦法打印出MPI正在嘗試執行的操作,或者監視MPI,例如詳細模式?