DeiT：使用Attention蒸馏Transformer

题目：Training data-efficient image transformers & distillation through attention

【GiantPandaCV导语】Deit是一个全Transformer的架构，没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练，引入了一种教师-学生的训练策略，提出了token-based distillation。有趣的是，这种训练策略使用卷积网络作为教师网络进行蒸馏，能够比使用transformer架构的网络作为教师取得更好的效果。

欢迎关注vx公号：GiantPandaCV 和神经网络结构搜索

[图片上传失败...(image-2dc4fd-1632449951181)]

简介

之前的ViT需要现在JFT-300M大型数据集上预训练，然后在ImageNet-1K上训练才能得到出色的结果，但这借助了额外的数据。

ViT文中也表示：“do not generalize well when trained on insufficient amounts of data”数据量不足会导致ViT效果变差。

针对以上问题，Deit核心共享是使用了蒸馏策略，能够仅使用ImageNet-1K数据集就就可以达到83.1%的Top1。

文章贡献如下：

仅使用Transformer，不引入Conv的情况下也能达到SOTA效果。
提出了基于token蒸馏的策略，这种针对transformer的蒸馏方法可以超越原始的蒸馏方法。
Deit发现使用Convnet作为教师网络能够比使用Transformer架构取得更好的效果。

知识蒸馏

Knowledge Distillation（KD）最初被Hinton提出，与Label smoothing动机类似，但是KD生成soft label的方式是通过教师网络得到的。

KD可以视为将教师网络学到的信息压缩到学生网络中。还有一些工作“Circumventing outlier of autoaugment with knowledge distillation”则将KD视为数据增强方法的一种。

KD能够以soft的方式将归纳偏置传递给学生模型，Deit中使用Conv-Based架构作为教师网络，将局部性的假设通过蒸馏方式引入Transformer中，取得了不错的效果。

本文提出了两种KD:

Soft Distillation: 使用KL散度衡量教师网络和学生网络的输出，即Hinton提出的方法。

${L}_{\text {global }}=(1-\lambda) {L}_{{CE}}\left(\psi\left(Z_{{s}}\right), y\right)+\lambda \tau^{2} {KL}\left(\psi\left(Z_{{s}} / \tau\right), \psi\left(Z_{{t}} / \tau\right)\right)$

其中 $Z_s，Z_t$ 分别代表学生网络的logits输出和教师网络的logits输出。

Hard-label Distillation: 本文提出的一个KD变体，将教师网络得到的hard输出作为label，即 $y_t=argmax_cZ_t(c)$ ，该方法是无需调参的。

${L}_{\text {global }}^{\text {hardDistill}}=\frac{1}{2} {L}_{{CE}}\left(\psi\left(Z_{s}\right), y\right)+\frac{1}{2} {L}_{{CE}}\left(\psi\left(Z_{s}\right), y_{{t}}\right)$

Deit蒸馏过程

[图片上传失败...(image-94bbeb-1632449951181)]

在ViT架构基础上引入了Distillation token，其地位与Class token相等，并且参与了整体信息的交互过程。

Distillation token让模型从教师模型输出中学习，文章发现：

最初class token和distillation token区别很大，余弦相似度为0.06
随着class 和 distillation embedding互相传播和学习，通过网络逐渐变得相似，到最后一层，余弦相似度为0.93

实验

Deit模型follow了Vision Transformer的设置，训练策略有所不同，仅使用Linear classifier，而不是用MLP head。

本文提出了Deit的系列模型：

Deit-B：代表与ViT-B有相同架构的模型
Deit-B|384 : 代表对Deit-B进行finetune，分辨率提升到384
Deit-S/Deit-Ti：更小的模型，修改了head数量。

[图片上传失败...(image-13c7e5-1632449951181)]

实验1： 选取不同教师网络的效果

[图片上传失败...(image-10d393-1632449951181)]

可以发现使用RegNet作为教师网络可以取得更好的性能表现，Transformer可以通过蒸馏来继承归纳偏差。

同时还可以发现，学生网络可以取得超越老师的性能，能够在准确率和吞吐量权衡方面做的更好。

PS:不太明白这里对比的时候为何不选取ViT-H(88.5%top1)作为教师模型？

实验2： 测试不同蒸馏方法

[图片上传失败...(image-e94ac9-1632449951181)]

实验证明：hard-label distillation能够取得更好的结果。

[图片上传失败...(image-8f0e9c-1632449951181)]

实验3： 与SOTA模型进行比较

[图片上传失败...(image-d8b9ff-1632449951181)]

训练细节

使用truncated normal distribution来进行初始化
soft蒸馏参数： $\tau=3,\lambda=0.1$
数据增强：Autoaugment,Rand-augment,random erasing,Cutmix,Mixup,Label Smoothing等
训练300个epoch需要花费37个小时，使用两个GPU

[图片上传失败...(image-e7cdcb-1632449951181)]

回顾

问: 为什么不同架构之间也可以蒸馏？蒸馏能够将局部性引入transformer架构吗？

答：教师模型能够将归纳偏置以soft的方式传递给学生模型。

问: 性能增强归功于蒸馏 or 复杂度数据增强方法？

答：蒸馏策略是有效的，但是相比ViT，Deit确实引入了非常多的数据增强方法，直接与ViT比较还是不够公平的。Deit测试了多种数据增强方法，发现大部分数据增强方法能够提高性能，这还是可以理解为Transformer缺少归纳偏置，所以需要大量数据+数据增强。

最后编辑于：2021.09.24 10:23:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343

DeiT：使用Attention蒸馏Transformer

简介

知识蒸馏

Deit蒸馏过程

实验

训练细节

回顾

推荐阅读更多精彩内容