在上一篇中我们介绍了 mpi4py 中的 futures 模块,下面我们将介绍 mpi4py 中的 run 模块。
在 mpi4py初始化和运行时设置中介绍过,默认情况下,在导入模块时,mpi4py 会调用 MPI_Init_thread() 以初始化 MPI 执行环境并设置退出钩子以使程序退出前会自动调用 MPI_Finalize() 结束 MPI 执行环境。此外,mpi4py 还重载了默认的 MPI.ERRORS_ARE_FATAL 错误处理函数,将其设置为 MPI.ERRORS_RETURN 以传递 MPI 错误成 Python 的相关异常。这些偏离 MPI 标准的行为对 Python 这样的高动态编程语言是合适的和方便的。使用 mpi4py 时只需一句简单的 from mpi4py import MPI 即可调用 MPI 相关功能而无需冗长而模式化的初始化和结束处理。同时,在调用 MPI 过程中发生的错误,只要其传递成了 Python 异常,就可以使用 Python 中的 try ... except ... finally 语句进行异常捕获及处理,没有被处理的那些异常会打印调用栈信息以帮助定位有问题的程序代码。
不幸的是,自动的 MPI 初始化和未处理的异常可能会导致死锁,比如说下面这段 Python 代码,假定这段代码是存储在标准的 Python 脚本文件中并且使用 mpiexec 运行(使用 2 个或 2个以上进程)。
from mpi4py import MPI
assert MPI.COMM_WORLD.Get_size() > 1
rank = MPI.COMM_WORLD.Get_rank()
if rank == 0:
1/0
MPI.COMM_WORLD.send(None, dest=1, tag=42)
elif rank == 1:
MPI.COMM_WORLD.recv(source=0, tag=42)
进程 0 在向进程 1 发送消息之前抛出 ZeroDivisionError 异常,因为这个异常并没有被处理,进程 0 将会以一个非 0 的状态退出,但是因为 mpi4py 设置了在退出程序之前自动调用 MPI_Finalize() 的钩子,进程 0 会阻塞等待其它进程执行到 MPI_Finalize() 调用处。同时,进程 1 会阻塞等待接收来自进程 0 的消息而永远无法到达 MPI_Finalize() 调用处。整个 MPI 执行环境会进入到一个永久的死锁态。
为了减轻这个问题,mpi4py 提供了另外的简单的命令行执行机制。只需在命令行中传递 -m mpi4py 来执行相应的 Python 程序就可以使用该机制。在这种情况下,对没有处理的异常,程序结束钩子会在 MPI_COMM_WORLD 通信子上调用 MPI_Abort() 以强制结束 MPI 执行环境,避免程序死锁。
可以使用类似于下面 4 种方式来使用这种机制:
- $ mpiexec -n numprocs python -m mpi4py pyfile [arg] ...
- $ mpiexec -n numprocs python -m mpi4py -m mod [arg] ...
- $ mpiexec -n numprocs python -m mpi4py -c cmd [arg] ...
- $ mpiexec -n numprocs python -m mpi4py - [arg] ...
其中, pyfile 包含 Python 程序代码,mod 为 Python 模块,cmd 为 Python 命令语句,- 为从标准输入(sys.stdin)读取 Python 执行语句。
以上介绍了 mpi4py 中的 run 模块,在下一篇中我们将介绍在 cython 中使用 mpi4py。