2016-04-04 66 views
0

我想利用MPI檢查點功能來保存我的工作。根據https://wiki.mpich.org/mpich/index.php/Checkpointing的建議MPI檢查點使用情況

我應該可以發送SIGUSR1到mpiexec(在我的情況下,我發送給mpirun)來觸發一個檢查點。然而,當我這樣做,我沒有看到,我-ckpoint前綴指定保存在我的檢查站目錄中的所有文件

,這裏是我的mpirun -info輸出 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

我的命令行是:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

我發信號的方式是kill -s USR1 1900,1900是miprun的pid。只要我發送信號,程序就會結束。儘管沒有崩潰。任何人對MPI檢查點有經驗?

回答

0

我想我想通了。我將USR1發送給mpirun,但我應該將其發送給mpiexec.hydra。儘管一些在線文章稱mpirun和mpiexec是一回事。