5
A
回答
3
注意,由於MPI 1.x的日子已經存在一個特點是,你可以設置一個錯誤處理程序:例如,
http://www.mpi-forum.org/docs/mpi-11-html/node148.html
正如馬克指出,我們大多數人只使用MPI_ERRORS_ARE_FATAL(這是默認情況下),因爲我們的算法非常笨重,不能很容易地恢復(除了通過檢查點,我們大多數人都是這樣做的)。
但是,情況並非如此;您可以讓MPI函數返回錯誤消息並嘗試儘可能地恢復。
有幾個容錯MPI軟件包 - http://icl.cs.utk.edu/ftmpi/(這是舊的,只實現MPI 1.2功能)。最近,http://osl.iu.edu/research/ft/cifts/是作爲單獨項目加入OpenMPI的一種方法,並且還有一個操作系統級別的檢查點/重新啓動程序包BLCR,可能會引起人們的興趣。
的MPI-3論壇正在討論在MPI標準的容錯API,所以這些項目的步伐正在accellerating。
1
不是真的,MPI不能提供出的現成的容錯能力。你可以編寫你的程序來處理程序的失敗,但是我們大多數人不會,當硬件死亡時,我們的程序會崩潰。隨着擁有數十萬臺處理器的超級計算機的出現以及秒之間的平均無故障時間,這種情況正在發生變化。
相關問題
- 1. 殭屍進程的父節點終止後會發生什麼?
- 2. 如果我終止jUnit測試會發生什麼
- 3. 如果服務器終止,TCP數據包會發生什麼?
- 4. 如果打開失敗會發生什麼情況?
- 5. 如果發佈者在收到ack之前終止,會發生什麼情況?
- 6. 如果我strncat到沒有空終止符的字符串會發生什麼?
- 7. Android - 如果綁定活動被終止,綁定服務會發生什麼?
- 8. 線程內線程:如果父線程被終止會發生什麼?
- 9. 如果StreamWriter或XmlWriter突然終止,文件會發生什麼變化?
- 10. 如果指標停止發佈,Prometheus警報會發生什麼?
- 11. 終止亞馬遜EC2 - 持久數據會發生什麼
- 12. 當主線程終止時,SynchronizationContext會發生什麼?
- 13. 當一個進程/任務被終止時會發生什麼
- 14. 如果hadoop中的節點更改其IP地址,會發生什麼情況?
- 15. 如果ElasticSearch節點/索引/分片受損,會發生什麼情況
- 16. 如果action =「」會發生什麼?
- 17. 如果HttpClient.execute()中斷會發生什麼?
- 18. Cloudflare DNS - 如果我停止Cloudflare會發生什麼?
- 19. 如何停止Java結果:1錯誤?爲什麼會發生?
- 20. 如果域別名被阻止會發生什麼?
- 21. 會發生什麼?
- 22. python:如果在關閉之前退出,打開的文件會發生什麼?
- 23. 如果我沒有在打開的密鑰上調用RegCloseKey會發生什麼?
- 24. 當你撥打`如果鍵入字典'會發生什麼?
- 25. 如果您打破Lock()語句,會發生什麼情況?
- 26. 如果我不打電話給session_start(),會發生什麼?
- 27. 如果您打斷Git推送會發生什麼?
- 28. iPhone開發計劃:會發生什麼?
- 29. 如果您點擊禁用的UIButton,會發生什麼
- 30. 會發生什麼?
+1:自從我幾年前參加課程以來,我沒有給MPI錯誤處理程序一個想法。 – 2010-11-16 17:33:27
MPICH2最近的1.3.1版本比以前的版本更容錯。當使用MPI_ERRORS_RETURN作爲錯誤處理程序時,它容許單個進程失敗,但集體操作可能以意外的方式失敗或掛起程序。該版本還支持BLCR。以下是相關的變更日誌:https://svn.mcs.anl.gov/repos/mpi/mpich2/tags/release/mpich2-1.3.1/CHANGES – 2010-11-18 20:20:20