图解什么是 Transformer

Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作，
由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。

Transformer 在机器翻译任务上的表现超过了 RNN，CNN，只用 encoder-decoder 和 attention 机制就能达到很好的效果，最大的优点是可以高效地并行化。

from：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

Transformer 是一种基于 encoder-decoder 结构的模型，

from：https://arxiv.org/pdf/1706.03762.pdf

在 Encoder 中，

Input 经过 embedding 后，要做 positional encodings，
然后是 Multi-head attention，
再经过 position-wise Feed Forward，
每个子层之间有残差连接。

在 Decoder 中，

如上图所示，也有 positional encodings，Multi-head attention 和 FFN，子层之间也要做残差连接，
但比 encoder 多了一个 Masked Multi-head attention，
最后要经过 Linear 和 softmax 输出概率。

下面我们具体看一下其中这几个概念，这里主要参考 Jay Alammar，他在 The Illustrated Transformer 中给出了很形象的讲解。

1. 整体结构

例如我们要进行机器翻译任务，输入一种语言，经过 Transformer，会输出另一种语言。

Transformer 的 encoder 由 6 个编码器叠加组成，
decoder 也由 6 个解码器组成，
在结构上都是相同的，但它们不共享权重。

每一个 encoder 都分为两个子层：

先流经 self-attention 层，这一层可以帮助编码器在编码某个特定单词时，也会查看其他单词
self-attention 层的输出再传递给一个前馈神经网络层，在每个位置的前馈网络都是完全相同的，

每一个 decoder 也具有这两个层，但还有一个注意力层，用来帮助解码器关注输入句子的相关部分

from：http://jalammar.github.io/illustrated-transformer/

2. Encoder

Input 经过 embedding 后，要做 positional encodings，
然后是 Multi-head attention，
再经过 position-wise Feed Forward，
每个子层之间有残差连接。

首先使用嵌入算法将输入的 word 转换为 vector，
最下面的 encoder ，它的输入就是 embedding 向量，
在每个 encoder 内部，
输入向量经过 self-attention，再经过 feed-forward 层，
每个 encoder 的输出向量是它正上方 encoder 的输入，
向量的大小是一个超参数，通常设置为训练集中最长句子的长度。

在这里，我们开始看到 Transformer 的一个关键性质，
即每个位置的单词在 encoder 中都有自己的路径，
self-attention 层中的这些路径之间存在依赖关系，
然而在 feed-forward 层不具有那些依赖关系，
这样各种路径在流过 feed-forward 层时可以并行执行。

2.1 positional encodings

Positional Encoding 是一种考虑输入序列中单词顺序的方法。

encoder 为每个输入 embedding 添加了一个向量，这些向量符合一种特定模式，可以确定每个单词的位置，或者序列中不同单词之间的距离。

例如，input embedding 的维度为4，那么实际的positional encodings如下所示：

from：http://jalammar.github.io/illustrated-transformer/

在下图中，是20个单词的 positional encoding，每行代表一个单词的位置编码，即第一行是加在输入序列中第一个词嵌入的，每行包含 512 个值，每个值介于 -1 和 1 之间，用颜色表示出来。

可以看到在中心位置分成了两半，因为左半部分的值由一个正弦函数生成，右半部分由余弦函数生成，然后将它们连接起来形成了每个位置的编码向量。

当然这并不是位置编码的唯一方法，只是这个方法能够扩展到看不见的序列长度处，例如当我们要翻译一个句子，这个句子的长度比我们训练集中的任何一个句子都长时。

2.2 Multi-head attention

2.2.1 先看什么是 Self-Attention

例如我们要翻译：”The animal didn't cross the street because it was too tired” 这句话
这句话中的“it”是指什么？它指的是 street 还是 animal？
这对人类来说是一个简单的问题，但对算法来说并不简单。

而 Self-Attention 让算法知道这里的 it 指的是 animal

2.2.2 self-attention 的作用

当模型在处理每个单词时，self-attention 可以帮助模型查看 input 序列中的其他位置，寻找相关的线索，来达到更好的编码效果。它的作用就是将对其他相关单词的“understanding”融入我们当前正在处理的单词中。

例如上图中，在第5层时，我们就知道 it 大概指的是 animal 了。

2.2.3 self-attention 具体原理

第一步，为编码器的每个输入单词创建三个向量，
即 Query vector, Key vector, Value vector
这些向量通过 embedding 和三个矩阵相乘得到，
请注意，这些新向量的尺寸小于嵌入向量。它们的维数为64，而嵌入和编码器输入/输出向量的维数为512.它们不一定要小，这是一种架构选择，可以使多头注意力计算（大多数）不变。
将x1乘以WQ得到Query向量 q1，同理得到Key 向量和, Value 向量
这三个向量对 attention 的计算有很重要的作用

第二步，是计算一个得分
假设我们要计算一个例子中第一个单词 “Thinking” 的 self-attention，就需要根据这个单词，对输入句子的每个单词进行评分，这个分数决定了对其他单词放置多少关注度。
分数的计算方法是，
例如我们正在考虑 Thinking 这个词，就用它的 q1 去乘以每个位置的 ki

第三步和第四步，是将得分加以处理再传递给 softmax
将得分除以 8（因为论文中使用的 key 向量的维数是 64，8 是它的平方根）
这样可以有更稳定的梯度，
然后传递给 softmax，Softmax 就将分数标准化，这样加起来保证为 1。
这个 softmax 分数决定了每个单词在该位置bbei表达的程度。
很明显，这个位置上的单词将具有最高的softmax分数，但有时候注意与当前单词相关的另一个单词是有用的。

第五步，用这个得分乘以每个 value 向量
目的让我们想要关注单词的值保持不变，并通过乘以 0.001 这样小的数字，来淹没不相关的单词

第六步，加权求和这些 value 向量

这就是第一个单词的 self-attention 的输出
得到的向量接下来要输入到前馈神经网络，在实际实现中用矩阵乘法的形式完成

2.2.4 multi-headed 机制

论文中还增加一种称为 multi-headed 注意力机制，可以提升注意力层的性能

它使得模型可以关注不同位置

虽然在上面的例子中，z1 包含了一点其他位置的编码，但当前位置的单词还是占主要作用，当我们想知道“The animal didn’t cross the street because it was too tired” 中 it 的含义时，这时就需要关注到其他位置

这个机制为注意层提供了多个“表示子空间”。下面我们将具体介绍，

1. 经过 multi-headed ，我们会得到和 heads 数目一样多的 Query / Key / Value 权重矩阵组
论文中用了8个，那么每个encoder/decoder我们都会得到 8 个集合。
这些集合都是随机初始化的，经过训练之后，每个集合会将input embeddings 投影到不同的表示子空间中。

2. 简单来说，就是定义 8 组权重矩阵，每个单词会做 8 次上面的 self-attention 的计算
这样每个单词会得到 8 个不同的加权求和 z

3. 但在 feed-forward 处只能接收一个矩阵，所以需要将这八个压缩成一个矩阵
方法就是先将8个z矩阵连接起来，然后乘一个额外的权重矩阵WO

下图显示了在例句中，it 的不同的注意力 heads 所关注的位置，一个注意力的焦点主要集中在“animal”上，而另一个注意力集中在“tired”，换句话说，it 是 “animal”和“tired”的一种表现形式。
当然如果选了8个层，将所有注意力 heads 都添加到图片中，就有点难以解释了。

2.3 Residuals

这里有一个细节，

即在每个 encoders 和 decoders 里面的 self-attention, ffnn，encoders-decoders attention 层，都有 residual 连接，还有一步 layer-normalization

from：http://jalammar.github.io/illustrated-transformer/

3. Decoder

下面我们看一下 Decoder 部分

如上图所示，也有 positional encodings，Multi-head attention 和 FFN，子层之间也要做残差连接，
但比 encoder 多了一个 Masked Multi-head attention，
最后要经过 Linear 和 softmax 输出概率。

1. 输入序列经过编码器部分，然后将最上面的 encoder 的输出变换成一组 attention 向量 K和V
这些向量会用于每个 decoder 的 encoder-decoder attention 层，有助于解码器聚焦在输入序列中的合适位置

from http://jalammar.github.io/illustrated-transformer/

重复上面的过程，直到 decoder 完成了输出，每个时间步的输出都在下一个时间步时喂入给最底部的 decoder，同样，在这些 decoder 的输入中也加入了位置编码，来表示每个字的位置。

2. 解码器中的 self attention 层与编码器中的略有不同
在解码器中，在 self attention 的 softmax 步骤之前，将未来的位置设置为 -inf 来屏蔽这些位置，这样做是为了 self attention 层只能关注输出序列中靠前的一些位置。

Encoder-Decoder Attention 层的工作方式与 multiheaded self-attention 类似，只是它用下面的层创建其 Queries 矩阵，从编码器栈的输出中获取 Keys 和 Values 矩阵。

3. 解码器最后输出的是一个向量，如何把它变成一个单词，这就要靠它后面的线性层和 softmax 层
线性层就是一个很简单的全连接神经网络，将解码器输出的向量映射成一个更长的向量。
例如我们有 10,000 个无重复的单词，那么最后输出的向量就有一万维。
每个位置上的值代表了相应单词的分数。

softmax 层将这个分数转换为了概率。

我们选择概率最大的所对应的单词，就是当前时间步的输出。

学习资源：
https://arxiv.org/pdf/1706.03762.pdf
https://jalammar.github.io/illustrated-transformer/
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 193,968评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,682评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,254评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,074评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,964评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,055评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,484评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,170评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,433评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,512评论 2赞 308
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,296评论 1赞 325
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,184评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,545评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,150评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,437评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,630评论 2赞 335

图解什么是 Transformer

1. 整体结构

2. Encoder

2.1 positional encodings

2.2 Multi-head attention

2.2.1 先看什么是 Self-Attention

2.2.2 self-attention 的作用

2.2.3 self-attention 具体原理

2.2.4 multi-headed 机制

2.3 Residuals

3. Decoder

推荐阅读更多精彩内容