我想利用MPI檢查點功能來保存我的工作。根據https://wiki.mpich.org/mpich/index.php/Checkpointing的建議MPI檢查點使用情況
我應該可以發送SIGUSR1到mpiexec(在我的情況下,我發送給mpirun)來觸發一個檢查點。然而,當我這樣做,我沒有看到,我-ckpoint前綴指定保存在我的檢查站目錄中的所有文件
,這裏是我的mpirun -info輸出 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select
我的命令行是:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
我發信號的方式是kill -s USR1 1900
,1900是miprun的pid。只要我發送信號,程序就會結束。儘管沒有崩潰。任何人對MPI檢查點有經驗?