理解PyTorch分发机制的内部工作原理

概述

PyTorch的成功归功于其简单易用性（与Python的用法相似）和动态灵活性。即使在PyTorch 2.0时代，它仍然保持着"Faster, more pythonic and dynamic as ever"的核心特性。

PyTorch的动态性源自内部的调度器（dispatcher），它可以根据不同的输入类型自动选择正确的运算方式。当调用Python函数时，调度器会根据传入的参数类型选择正确的操作实现，这个过程称为分派（dispatch）。

例如，当执行矩阵乘法（torch.matmul(a, b)）时，调度器会根据输入张量a和b的类型（dtype、shape、device等）选择正确的BLAS库（CPU还是CUDA，float还是half，是否批量计算）来进行计算。对于PyTorch来说，模型的执行过程就是将各个操作（op）分派给本地方法（native function）执行的过程。

http://blog.ezyang.com/2020/09/lets-talk-about-the-pytorch-dispatcher/

dispatcher 为每个 op 都维护了一张跳转表（它有点像 C++ 实现多态用的虚表），如上图所示，表中每个条目存储了一个本地方法，有些方法和输入张量所属的设备有关，比如 XLA/CUDA/CPU，有的和 requires_grad 有关，比如 Autograd（这图是从 ezyang’s blog 拿来的，他这篇博客详细讲解了分派机制，建议阅读）。

当 op 被执行时，e.g. aten::addmm，调度器会在它的跳转表中找出一个方法来执行，而且一个 op 执行过程可能会调用多个方法，例如，输入张量需要求导（requires_grad = true），那会先调用 Autograd 方法来构建反向图，再调用 backend（CPU/CUDA/XLA）的方法来运算。

分派规则

http://blog.ezyang.com/2020/09/lets-talk-about-the-pytorch-dispatcher/

跳转表里的条目是以键值对的形式来存调度方法，其中“键”称为 dispatch key，以 bit 的形式存在，bit 值越大，优先级越高，调度器会从键集（dispatch key set）中选取优先级最高的条目来执行。

从上图可以看到，键集不只有一个，每个输入张量都有自己的键集，还有 local（local include和local exclude）和 global 键集，这些键集最终会合并，调度器从中选取优先级最高的键值对应的方法来执行。

输入张量的键集是比较好理解的，张量本身具有很多属性，如 layout (dense or sparse)、shape 和 device (CPU or CUDA)，一个属性对应一个 dispatch key（可以从 DispatchKey.h 找到所有的 key）。对于不同类型的张量，我们希望能使用不同实现的操作以实现高性能计算的目标。

Local 键集与张量个体无关，与模型的行为有关，表示模型运行在某模式中，比如 tracing。它可以允许用户在某个范围内开启或关闭模式。要开启模式就是往 local include 里添加键，要关闭模式就是往 local exclude 里添加要屏蔽的键。

Global 则表示无论什么操作都会添加的键集（图中 autograd 已经从 global 移到 tensor 键集）。

分派流程

http://blog.ezyang.com/2020/09/lets-talk-about-the-pytorch-dispatcher/

前面也提到，一个 op 的执行是要经历多次分派的，上图就展示了这个过程：

首先，输入张量需要求导（requires_grad = true），调度器就分派给 Autograd key 的本地方法。它会为 op 生成一个反向计算操作，然后，再把控制权交给调度器做重新分派。
接着由于输入张量在CPU上，CPU的方法会被分派执行。

前面提到，调度器会调用优先级最高的 dispatch key，因此，重新分派的前提是将已经调度过的键从键集里清除，否则重新分派将会重复调用相同的方法。

Autograd 的本地方法通过在 local exclude 键集中添加要屏蔽的键（Autograd）来避免方法的重复调用。可以通过创建 AutoNonVariableTypeMode RAII guard 来实现：

class MyAddFunction : public torch::autograd::Function<MyAddFunction> {
 public:
  static Tensor forward(
      AutogradContext *ctx, torch::Tensor self, torch::Tensor other) {
    at::AutoNonVariableTypeMode g;
    return myadd(self, other);
  }
  ...
};

注册自定义操作

回想一下分派规则：调度器首先找到 op 对应的跳转表，合并键集，并调用键值最大的条目中的函数。由于 dispatch key 是 PyTorch 固定且不可扩展的，因此注册自定义操作需要注册 op 以及跳转表中键的方法。

注册 op

TORCH_LIBRARY(myops, m) {
  m.def("myadd(Tensor self, Tensor other) -> Tensor");
}

PyTorch 提供 TORCH_LIBRARY 用于将 op（也称作 schema string 或 signature）注册到一个库里，用户可以在 python 通过 c = torch._ops.myops.myadd(a, b) 调用该 op。

schema 与 TensorFlow 的 op_def 和 ONNX 的 node 一样，都用于描述一个操作，只是由于 PyTorch 是动态图的，schema 不需要也不能承载更多信息。

注册 dispatch function

TORCH_LIBRARY_IMPL(myops, CUDA, m) {
  m.impl("myadd", myadd_cuda);
}

注册完 op 后，接着就可以通过 TORCH_LIBRARY_IMPL 注册 dispatch key 对应的方法。上述代码片段通过将 myadd_cuda 注册到键：CUDA。

除了为每个键单独注册一个方法，还可以为所有的键注册一个共同的方法，这类方法称为 catch-all：

TORCH_LIBRARY(myops, m) {
  m.def("myadd", myadd_catchall);
}

此外，还可以为所有 op 的某个键注册一个共同的 fallback 方法：

TORCH_LIBRARY_IMPL(_, XLA, m) {
  m.fallback(xla_fallback);
}

除了 dispatch key 具有优先级外，这些方法也有优先级：impl > catch-all > fallback：

http://blog.ezyang.com/2020/09/lets-talk-about-the-pytorch-dispatcher/

END

PyTorch的调度器（dispatcher）和分派机制是其灵活性和高性能计算的关键。调度器根据输入类型自动选择适当的操作实现，通过分派流程将操作分派给本地方法执行。分派规则通过 dispatch key 和 keyset 确定执行方法的优先级。注册自定义操作的过程允许用户扩展PyTorch的功能。了解这些原理有助于深入理解PyTorch的内部工作机制，并为模型开发和优化提供指导。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,248评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,681评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,443评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,475评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,458评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,185评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,451评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,112评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,609评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,083评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,163评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,803评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,357评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,357评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,590评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,636评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,925评论 2赞 344

理解PyTorch分发机制的内部工作原理

概述

分派规则

分派流程

注册自定义操作

注册 op

注册 dispatch function

END

推荐阅读更多精彩内容