2015-09-16 28 views
0

這類似於互聯網上的幾個問題,但是這個代碼似乎是工作了一段時間,而不是立即返回一個錯誤,這表明對我來說,這也許不僅僅是主機文件錯誤?誤差mpi4py一段時間產卵後,如何調試

我正在運行產卵,然後每創建一個循環,在其中他們與BCAST和散射發送一些數據的多個MPI程序代碼,然後從這些進程收集數據。這運行算法並保存數據。然後它從產生的comm斷開,並在下一個循環創建另一組spawns。這工作了幾分鐘,再經過大約300文件,它會吐出了這一點:

[T7810:10898] [[50329,0],0] ORTE_ERROR_LOG: Not found in file ../../../../../orte/mca/plm/base/plm_base_launch_support.c at line 758 
-------------------------------------------------------------------------- 
mpirun was unable to start the specified application as it encountered an error. 
More information may be available above. 

我的本地機(單節點)上測試這一點,所以最終的部署將有多個節點每次產卵說他們自己在該節點內的mpi進程。我試圖弄清楚這是否是在本地計算機上測試多個節點的問題,並且可以在HPC上正常工作,或者是更嚴重的錯誤。

我該如何調試?是否有辦法打印出MPI正在嘗試執行的操作,或者監視MPI,例如詳細模式?

回答

0

由於MPI4PY是如此接近MPI(邏輯上,如果不是在行-的代碼而言),調試這一種方式是寫程序的C版本,看看問題是否仍然存在。當你將這個bug報告給OpenMPI時,他們會想要一個小的c測試用例。