2021-10-12

爱可可老师7月至9月的推荐(2021.10.12整理)——MLPs与Vision Transformer主干架构专题，时间从近（9月）至远（7月）

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences

PoNet：基于池化网络的长序列高效Token混合

https://hub.fastgit.org/lxchtan/PoNet

UFO-ViT: High Performance Linear Vision Transformer without Softmax

UFO-ViT：免Softmax高性能线性视觉Transformer

J Song

[Kakao Enterprise]

Predicting Attention Sparsity in Transformers

M Treviso, A Góis, P Fernandes, E Fonseca, A F. T. Martins

[Instituto de Telecomunicações]

Transformer注意力稀疏度预测。Transformer结构的一个瓶颈，是其相对于输入序列的二次复杂度，这催生了大量关于softmax有效稀疏近似的工作。entmax transformer使用的另一种方法，是内置精确的稀疏注意；但是这种方法仍然需要四次的计算。本文提出Sparsefinder，一个简单模型，在计算entmax注意力之前，训练它来识别稀疏模式。在两个任务上实验了该方法的三个变体，即基于距离、量化和聚类的方法：机器翻译(解码器中的注意力)和掩码语言建模(仅编码器)。该工作为研究模型效率提供了一个新的角度，即对预测注意力图的稀疏性和召回率之间的权衡做了广泛的分析。允许在不同的模型之间进行详细的比较，并可能指导未来稀疏模型的基准。

Transformers Generalize Linearly

Transformer的线性泛化(结构性泛化)

J Petty, R Frank

Do Long-Range Language Models Actually Use Long-Range Context?

长程语言模型真的有用长程上下文吗？

S Sun, K Krishna, A Mattarella-Micke, M Iyyer

[University of Massachusetts Amherst & Intuit AI]

https://weibo.com/1402400261/Kzi2bkkn9

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

C Tang, Y Zhao, G Wang, C Luo, W Xie, W Zeng

[Microsoft Research Asia & University of Science and Technology of China]

稀疏MLP图像识别：自注意力真有必要吗？Transformer在计算机视觉领域的应用正在大规模兴起。本文探讨了Transformer中的核心自注意力模块是否是在图像识别中取得优异表现的关键。为此，在现有的基于MLP的视觉模型基础上建立了一个无注意力的网络sMLPNet。用一种新的稀疏MLP(sMLP)模块取代了token混合步骤中的MLP模块。对于2D图像token，sMLP沿轴向应用一维MLP，参数在行或列之间共享。通过稀疏连接和权重共享，sMLP模块避免了传统MLP的二次模型大小和二次计算复杂性，大大减少了模型参数数量和计算复杂性，避免了困扰类MLP模型性能的常见过拟合问题。当只在ImageNet-1K数据集上训练时，所提出的sMLPNet仅用24M的参数就达到了81.9%的top-1准确率，在相同的模型规模约束下，比大多数CNN和视觉Transformer要好得多。当扩展到66M参数时，sMLPNet达到了83.4%的最高准确率，这与最先进的Swin Transformer相当。sMLPNet的成功表明，自注意力机制不一定是计算机视觉中的银弹。代码将被公开提供。

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Y Lou, F Xue, Z Zheng, Y You

[National University of Singapore]

Sparse-MLP：条件计算全MLP架构。稀疏条件计算混合专家模型(MoE)已被证明是一种有效的架构，可以在计算成本相当的情况下将基于注意力的模型扩展到更多的参数。本文提出Sparse-MLP，用稀疏MoE层扩展最近的MLP-Mixer模型，以实现更高效的计算架构。将MLP-Mixer模型中的密集MLP块的一个子集替换为稀疏块。在每个稀疏块中，应用两级MoE层：一级是MLP专家沿图块维度混合通道内的信息，一级是MLP专家沿通道维度混合图块内的信息。此外，为减少路由计算成本并提高专家能力，在每个稀疏块中设计了Re-represent层。这些层是通过两个简单而有效的线性变换来重新扩展图像的表示。当用MoCo v3算法对ImageNet-1k进行预训练时，该模型在ImageNet Top-1的准确率上比密集MLP模型高出2.5%，而参数和计算成本更低。在小规模的下游图像分类任务上，即Cifar10和Cifar100，稀疏MLP仍然可以取得比基线更好的性能。

ConvMLP: Hierarchical Convolutional MLPs for Vision

https://hub.fastgit.org/SHI-Labs/Convolutional-MLPs

J Li, A Hassani, S Walton, H Shi

[University of Oregon]

ConvMLP：视觉分层卷积MLP。基于MLP的架构由一连串多层感知器块组成，最近被发现可达到与卷积和基于Transformer的方法相当的结果。然而，大多数采用的是空间MLP，接受固定维度的输入，因此很难将其应用于下游任务，如目标检测和语义分割。此外，单级设计进一步限制了其他计算机视觉任务的性能，而且全连接层的计算量很大。为解决这些问题，本文提出ConvMLP：面向视觉识别的分层卷积MLP，轻量、分阶段、共同设计的卷积层和MLP。ConvMLPS在ImageNet-1k上以9M的参数和2.4G的MACs达到了76.8%的最高精度(MLPMixer-B/16分别是15%和19%）。关于目标检测和语义分割的实验进一步表明，通过ConvMLP学习的视觉表示可以被无缝迁移，并以较少的参数取得有竞争力的结果。

PermuteFormer: Efficient Relative Position Encoding for Long Sequences

https://hub.fastgit.org/cpcp1998/PermuteFormer

P Chen

[Peking University]

PermuteFormer: 长序列高效相对位置编码。Transformer的一个最新变种Performer，通过线性注意力机制将Transformer扩展到长序列，但与相对位置编码不兼容，而相对位置编码比绝对位置编码有优势。本文中讨论了为Performer增加相对位置编码的可能方法。在分析的基础上，提出了PermuteFormer，一种基于Performer的相对位置编码模型，在长序列上可线性扩展。PermuteFormer在查询和键上应用位置相关转换，将位置信息编码到注意力模块。这种转换是经过精心设计的，因此自注意力的最终输出不会受到token绝对位置的影响。PermuteFormer通过设计引入了可忽略不计的计算开销，运行速度与Performer一样快。在Long-Range Arena(一个长序列数据集)和WikiText-103(一个语言建模数据集)上评估了PermuteFormer。实验表明，PermuteFormer在几乎没有计算开销的情况下普遍提高了Performer的性能，并在大多数任务上优于vanilla Transformer。

Exploring and Improving Mobile Level Vision Transformers

移动级视觉Transformer的探索和改进

Searching for Efficient Multi-Stage Vision Transformers

Y Liao, S Karaman, V Sze

[MIT]

高效多阶段视觉Transformer探索。视觉Transformer(ViT)证明了用于自然语言处理的Transformer可以应用到计算机视觉任务中，并产生与卷积神经网络(CNN)相当的性能，后者在计算机视觉中已经被研究和采用多年了。这自然提出了一个问题：如何利用CNN的设计技术提高ViT的性能。为此，本文提出将CNN的两种设计技术，即空间缩减和NAS，融入到ViT中，并提出了ViT-ResNAS，用神经架构搜索(NAS)设计的高效多阶段ViT架构。提出了残差空间缩减，以减少较深层的序列长度，利用多阶段架构。减少长度时，增加了跳接(skip connection)，以提高性能并稳定训练更深的网络。提出了具有多架构采样的分权NAS。放大一个网络并利用其子网络来定义一个搜索空间。然后训练一个覆盖所有子网络的超级网络，以快速评估其性能。为有效地训练超级网络，提出用一个前向-后向通道对多个子网络进行采样和训练。通过进化搜索来发现高性能的网络结构。在ImageNet上的实验表明，ViT-ResNAS比原来的DeiT和ViT的其他强基线实现了更好的精度-MAC和精度-吞吐量折衷。

∞-former: Infinite Memory Transformer

P H Martins, Z Marinho, A F. T. Martins

[Instituto de Telecomunicações & DeepMind]

∞-former：无限记忆Transformer。Transformer在处理长上下文时很吃力，因为计算量随着上下文长度的增加而增加，不能有效模拟长期记忆。为缓解该问题，已经提出了几种变体，但它们都是有限的记忆容量，被迫放弃旧的信息。本文提出∞-former，它扩展了具有无界长期记忆的vanilla transformer。通过利用连续空间注意力机制来关注长期记忆，∞-former的注意力复杂性变得与上下文长度无关。因此，能够模拟任意长的上下文并保持"粘性记忆"，同时保持一个固定的计算量。在一个合成分类任务上的实验证明了∞-former保留长序列信息的能力。进行了语言建模的实验，通过从头开始训练一个模型和微调一个预训练语言模型，显示了无界长期记忆的好处。

Hire-MLP: Vision MLP via Hierarchical Rearrangement

J Guo, Y Tang, K Han, X Chen, H Wu, C Xu, C Xu, Y Wang

[Huawei Technologies & Peking University & University of Sydney]

Hire-MLP：基于分层重排的视觉MLP。本文提出Hire-MLP，一个简单而有竞争力的基于分层重排的视觉MLP架构。之前的视觉MLP，如MLP-Mixer，对于各种尺寸的图像来说并不灵活，而且通过扁平化的token捕捉空间信息的效率很低。Hire-MLP对现有基于MLP的模型进行了创新，提出了分层重排的想法，以聚合局部和全局的空间信息，同时对下游任务具有通用性。内部区域重排的设计是为了捕捉空间区域内的局部信息。为了实现不同区域之间的信息交流并获取全局信息，提出了跨区域重排，以沿空间方向循环移动所有token。所提出的HireMLP架构是由简单的通道混合MLP和重排操作构建的，具有很高的灵活性和推理速度。实验表明，Hire-MLP在ImageNet-1K基准上取得了最先进的性能，在ImageNet上达到了83.4%的最高精度，超过了之前基于Transformer和基于MLP的模型，在准确率和吞吐量之间有更好的权衡。

The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers

R Csordás, K Irie, J Schmidhuber

[The Swiss AI Lab IDSIA]

魔鬼在细节：提高Transformer系统泛化能力的简单技巧。最近，很多数据集被提出以测试神经网络的系统泛化能力。与之对应的基线Transformer，通常是用标准任务中的默认超参数进行训练的，被证明是非常失败的。本文证明通过改进模型配置，如嵌入的尺度、早期停止、相对位置嵌入和通用Transformer变体等基本配置，可以极大提高Transformer在系统泛化方面的性能。报告了对五个流行数据集的改进。SCAN、CFQ、PCFG、COGS和数学数据集。所提出模型在PCFG分割上将准确率从50%提高到85%，在COGS上从35%提高到81%。在SCAN上，相对位置嵌入在很大程度上缓解了EOS决策问题，在长度分割上达到了100%的精度。这些模型之间的性能差异通常在IID数据分割上是看不见的，需要适当的泛化验证集来开发系统性泛化的神经网络。

Do Transformer Modifications Transfer Across Implementations and Applications?

S Narang, H W Chung, Y Tay, W Fedus, T Fevry, M Matena, K Malkan, N Fiedel, N Shazeer, Z Lan, Y Zhou, W Li, N Ding, J Marcus, A Roberts, C Raffel

[Google Research]

Transformer的修改能否在不同的实现和应用间迁移？自Transformer架构在三年前推出以来，研究界已经提出了大量的修改意见，但其中相对较少的修改意见得到了广泛的采用。本文在一个涵盖自然语言处理中Transformer大多数常见用途的共享实验环境中，全面评估了这些修改。令人惊讶的是，大多数修改都不能有意义地提高性能。大多数Transformer变体都是基于同一套代码开发的，或者只有相对较小的改动。猜测性能的提高可能在很大程度上取决于实现细节，相应地提出一些建议，以提高实验结果的通用性。

Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer

C Wu, F Wu, T Qi, Y Huang

[Tsinghua University & Microsoft Research Asia]

Smart Bird：基于可学习稀疏注意力的高效高性能Transformer。Transformer在NLP中取得了巨大的成功。然而，Transformer中自注意力机制的二次方复杂性使其在处理长序列时效率低下。许多现有的工作探索通过计算稀疏自注意力而不是密集自注意力来加速Transformer，通常关注某些位置的token或随机选择的token。然而，手动选择的或随机的标记，对上下文建模来说可能是信息不足的。本文提出Smart Bird，一种具有可学习稀疏注意力的高效Transformer，可智能地关注重要的token对。先用一个单头低维Transformer计算出一个粗略的注意力矩阵，其目的是找到token之间潜在的重要交互，根据从粗略注意力矩阵中得出的概率分数对token进行采样，为不同的注意力头生成不同的稀疏注意力指数矩阵，根据索引矩阵选择token嵌入，以形成稀疏注意力网络的输入。Smart Bird可有效降低Transformer的计算复杂度，同时可以识别token间的重要交互，更准确地捕捉上下文信息。在6个不同任务的基准数据集上进行的大量实验，验证了Smart Bird在文本建模中的效率和效果。

SHAQ: Single Headed Attention with Quasi-Recurrence

SHAQ：准递归单头注意力

N Bharwani, W Kushner, S Dandona, B Schreiber

[Georgia Institute of Technology]

Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs

M A Islam, M Kowal, S Jia, K G. Derpanis, N D. B. Bruce

[Ryerson University & York University & University of Guelph & Toronto AI Lab]

CNN中的每通道位置信息编码。本文挑战一个常见假设，即通过全局池化将卷积神经网络(CNN)中的3D(空间通道)张量的空间维度压缩成一个矢量，会消除所有空间信息。证明了位置信息是根据通道维度排序来编码的，而语义信息基本上没有。通过将这些发现应用到两个应用中，展示了其在现实世界中的影响。提出了一个简单而有效的数据增强策略和损失函数，以提高CNN输出的转换不变性。提出了一种方法来有效地确定潜表示中的哪些通道负责（i）编码整体位置信息或（ii）特定区域的位置。语义分割在很大程度上依赖于整体位置通道进行预测。有可能进行 "特定区域 "攻击，并降低网络在输入的特定部分的性能。

Adaptive Multi-Resolution Attention with Linear Complexity

线性复杂度自适应多分辨率注意力

Mobile-Former: Bridging MobileNet and Transformer

Y Chen, X Dai, D Chen, M Liu, X Dong, L Yuan, Z Liu

[Microsoft & University of Science and Technology of China]

Mobile-Former：MobileNet和Transformer的桥接并行设计。本文提出Mobile-Former，MobileNet和Transformer带有双向通道的并行设计。这种结构充分利用了MobileNet在局部处理和Transformer在全局交互方面的优势。通道实现了局部和全局特征的双向融合。与最近关于视觉Transformer的工作不同，Mobile-Former中的Transformer包含很少的Token(例如，少于6个Token)，这些Token是随机初始化的，因此计算成本很低。结合所提出的轻量交叉注意力建立通道模型，Mobile-Former不仅计算效率高，而且有更多的表示能力，在ImageNet分类上，在25M到500M FLOPs的低FLOP设置下，超过了MobileNetV3。例如，在294M FLOPs时，它达到了77.9%的最高准确率，比MobileNetV3提高了1.3%，但节省了17%的计算量。当迁移到目标检测时，Mobile-Former比MobileNetV3高出8.6AP。

RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision?

RaftMLP：面向计算机视觉的改进MLP模型

PSViT: Better Vision Transformer via Token Pooling and Attention Sharing

B Chen, P Li, B Li, C Li, L Bai, C Lin, M Sun, J Yan, W Ouyang

[The University of Sydney & BAIDU USA LLC & SenseTime Group Limited & University of Oxford]

PSViT：基于Token池化和注意力共享的更好视觉Transformer。本文观察到在应用视觉Transformer(ViT)进行图像识别时，存在两个层次的冗余。首先，在整个网络中固定Token数量会在空间层面产生冗余的特征。第二，不同Transformer层之间的注意力图是冗余的。基于上述观察，本文提出PSViT：一种基于Token池化和注意力共享的ViT，以减少冗余，有效提高特征表示能力，并实现更好的速度-精度权衡。在PSViT中，Token池化可以被定义为在空间层面减少token数量的操作。相邻Transformer层之间将建立注意力共享，以重用相邻层之间具有强关联性的注意力图。为不同的Token池化和注意力共享机制构建可能组合的紧凑集。基于该紧凑集，每层的Token数量和分享注意力的层的选择可以被视为超参数，从数据中自动学习。实验结果表明，与DeiT相比，所提出的方案在ImageNet分类中可以实现高达6.6%的精度提升。

FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention

T M. Nguyen, V Suliafu, S J. Osher, L Chen, B Wang

[University of California, Los Angeles & University of Utah]

FMMformer: 基于近场和远场注意力分解的高效灵活Transformer。本文提出FMMformer，一种高效灵活的Transformer，其灵感来自于用于加速相互作用粒子仿真的快速多极方法(FMM)。FMM将粒子与粒子的相互作用分解为近场和远场部分，然后分别进行直接计算和粗粒度计算。同样，FMMformers将注意力分解为近场注意力和远场注意力，用带状矩阵对近场注意力进行建模，用低秩矩阵对远场注意力进行建模。计算FMMformers的注意力矩阵需要在计算时间和内存占用方面与序列长度呈线性复杂关系。相比之下，标准Transformer的复杂度是二次的。分析并验证了FMMformers在Long Range Arena和语言建模基准上相比标准Transformer的优势。FMMformers甚至可以在精度方面大大超过标准Transformer。例如，FMMformers在五个Long Range Arena任务中取得了60.74%的平均分类准确率，这明显优于标准Transformer的58.70%的平均准确率。

Vision Transformer with Progressive Sampling

https://hub.fastgit.org/yuexy/PS-ViT

（ICCV2021）

X Yue, S Sun, Z Kuang, M Wei, P Torr, W Zhang, D Lin

[Centre for Perceptual and Interactive Intelligence & University of Oxford & SenseTime Research & Tsinghua University]

渐进采样视觉Transformer。最近，具有强大全局关系建模能力的Transformer，已经被引入到基本计算机视觉任务中。作为一个典型例子，视觉Transformer(ViT)直接将纯Transformer架构应用于图像分类，通过简单将图像分割成具有固定长度的token，用Transformer学习token之间的关系。然而，这种简单的token化可能会破坏物体结构，将网格分配给不感兴趣的区域，如背景，引入干扰信号。为缓解该问题，本文提出一种迭代和渐进采样策略，以定位鉴别性区域。每次迭代中，当前采样步骤的嵌入被送入一个Transformer编码器层，预测一组采样偏移量，以更新下一步采样位置。渐进式采样是可微的。当与视觉Transformer结合时，得到的PS-ViT网络可以自适应地学习寻找的位置。PS-ViT既有效又高效，在ImageNet上从头开始训练时，PS-ViT比vanilla ViT的top-1准确率高3.8%，参数少4倍，FLOPs少10倍。

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Evo-ViT：动态视觉Transformer的慢-快Token进化

https://hub.fastgit.org/YifanXu74/Evo-ViT

S²-MLPv2: Improved Spatial-Shift MLP Architecture for Vision

T Yu, X Li, Y Cai, M Sun, P Li

[Baidu Research]

S²-MLPV2：面向视觉的改进型空间位移MLP架构。最近，基于MLP的视觉骨干崭露头角。与CNN和视觉Transformer相比，基于MLP的视觉架构具有较小的归纳偏差，在图像识别方面取得了有竞争力的性能。其中，空间位移MLP(S-MLP)，采用直接的空间位移操作，取得了比包括MLP-mixer和ResMLP在内的开创性工作更好的性能。最近，通过采用金字塔结构和更小的图块，Vision Permutator(ViP)和Global Filter Network(GFNet)取得了比S-MLP更好的性能。本文改进了S-MLP的视觉骨架，沿通道维度扩展特征图，并将扩展后的特征图分成若干部分。对分割的部分进行不同的空间位移操作。利用分割-注意力操作来融合这些分割部分。同样采用了更小图块，并使用金字塔结构，来提高图像识别的精度。改进的空间位移MLP视觉骨干称为S²-MLPv2。使用55M参数的中等规模模型SMLPv2-Medium在ImageNet-1K基准上使用224×224的图像，在没有自注意力和外部训练数据的情况下，达到了83.6%的最高精确度。

Go Wider Instead of Deeper

F Xue, Z Shi, F Wei, Y Lou, Y Liu, Y You

[National University of Singapore]

更宽而不是更深。Transformer最近在各种任务上取得了令人印象深刻的结果。为进一步提高Transformer的有效性和效率，现有工作主要是两种思路：(1)通过扩展到更多的可训练参数来扩大范围；(2)通过参数共享或模型压缩以及深度来缩小范围。然而，当可用于训练的标记较少时，较大的模型通常不能很好地扩展，而且当模型非常大时，需要先进的并行机制。由于表示力的损失，较小的模型与原始的Transformer模型相比，通常取得较差的性能。为了用更少的可训练参数实现更好的性能，本文提出一个框架，通过更宽而不是更深来有效地部署可训练参数。通过用专家混合(MoE)取代前馈网络(FFN)来扩展模型宽度。利用各层的规范化，在各Transformer块之间共享MoE层。这样的部署起到了转换各种语义表示的作用，使得模型的参数效率更高、更有效。为了评估该框架，设计了WideNet，并在ImageNet-1K上对其进行了评估。其最佳模型在0.72倍的可训练参数下，比Vision Transformer(ViT)高出1.46%。使用0.46倍和0.13倍的参数，WideNet仍然可以分别比ViT和ViT-MoE高出0.83%和2.08%。

Rethinking and Improving Relative Position Encoding for Vision Transformer

K Wu, H Peng, M Chen, J Fu, H Chao

[Sun Yat-sen University & Microsoft Research Asia]

视觉Transformer相对位置编码的反思和改进。相对位置编码(RPE)对于Transformer来说非常重要，可以捕捉到输入标记的序列顺序。在自然语言处理中，其通用有效性已被证实。然而，在计算机视觉中，其有效性并没有得到很好的研究，甚至仍然存在争议，例如，相对位置编码是否可以和绝对位置编码一样好用？为澄清这一点，本文首先回顾了现有的相对位置编码方法，并分析了它们在视觉Transformer应用中的优点和缺点。提出了专用于2D图像的新的相对位置编码方法——图像RPE(iRPE)，该方法考虑了方向性的相对距离建模，以及查询和相对位置嵌入在自注意力机制中的相互作用。iRPE方法是简单和轻量的，可以很容易地插入到Transformer块中。实验表明，仅仅由于所提出的编码方法，DeiT和DETR在ImageNet和COCO上分别比其原始版本获得了高达1.5%(top-1 Acc)和1.3%(mAP)的稳定改进，无需调整任何额外的超参数，如学习速率和权重衰减。消融和分析也产生了有趣的发现，其中一些与之前的理解相悖。

Contextual Transformer Networks for Visual Recognition

Y Li, T Yao, Y Pan, T Mei

[JD AI Research]

面向视觉识别的上下文Transformer网络。基于自注意力的Transformer带来了自然语言处理领域的革命，最近也激发了Transformer式架构设计的出现，并在许多计算机视觉任务中取得了有竞争力的结果。然而，大多数现有设计直接采用2D特征图上的自注意力，以获得基于每个空间位置上孤立查询和键对的注意力矩阵，但没有充分地利用邻近键之间的丰富上下文。本文设计了一种新的Transformer式模块Contextual Transformer(CoT)，利用输入键之间的上下文信息来指导自注意力的学习，用于视觉识别。该设计充分地利用了输入键之间的上下文信息来指导动态注意力矩阵的学习，从而加强了视觉表示的能力。CoT块首先通过3×3卷积对输入键进行上下文编码，形成输入的静态上下文表示。将编码的键与输入查询连接起来，通过两个连续的1×1卷积来学习动态的多头注意力矩阵。学到的注意力矩阵与输入值相乘，以实现输入的动态上下文表示。静态和动态上下文表示的融合最终作为输出。这种方式优雅地将上下文挖掘和自注意力学习统一到一个架构中，加强了视觉表示的能力。CoT模块可以很容易地取代ResNet架构中的每个3×3卷积，产生一个Transformer式的骨干——Contextual Transformer Networks(CoTNet)。对广泛的应用(如图像识别、物体检测和实例分割)的实验，表明了CoTNet作为一个更强大的骨干网的优势。

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

Z Zhu, R Soricut

[Google Research]

H-Transformer-1D：面向序列的快速一维层次注意力。本文提出一种高效的层次方法来计算Transformer架构中的注意力。所提出的注意机制利用了类似于数值分析领域层次矩阵(H-Matrix)的矩阵结构，具有线性的运行时间和内存复杂度，与GPU和TPU上的密集线性代数库完全兼容。广泛的实验表明层次注意力所体现的归纳偏差在捕捉自然语言和视觉任务的典型序列中的层次结构方面是有效的。在Long Range Arena基准测试中，所提出方法比其他次二次建议平均高出+6分。在One-Billion Word数据集上创造了新的SOTA测试困惑度，模型参数比之前最好的基于Transformer的模型少5倍。

CycleMLP: A MLP-like Architecture for Dense Prediction

S Chen, E Xie, C Ge, D Liang, P Luo

[The University of Hong Kong & SenseTime Research]

CycleMLP：类MLP密集预测架构。本文提出一种简单的类MLP架构CycleMLP，视觉识别和密集预测的多功能骨干，与MLP-Mixer、ResMLP和gMLP等现代MLP架构不同，它们的架构与图像大小相关，因此在目标检测和分割中不可行。与现代方法相比，CycleMLP的主要优势有两个：(1) 可以应对各种图像尺寸 (2) 通过使用局部窗口实现了与图像大小相关的线性计算复杂度。相比之下，之前的MLP由于其全空间连接而具有二次计算量。本文构建了一个超越现有MLP的模型族，与最先进的Swin Transformer(83.3%)相比，在ImageNet-1K分类上取得了相当的准确性(83.2%)，但用到的参数和FLOPs更少。扩大了类MLP模型的适用性，使其成为密集预测任务的多功能骨干。CycleMLP旨在为MLP模型的目标检测、实例分割和语义分割提供一个有竞争力的基线。

Combiner: Full Attention Transformer with Sparse Computation Cost

H Ren, H Dai, Z Dai, M Yang, J Leskovec, D Schuurmans, B Dai

[Stanford University & Google Research]

Combiner：具有稀疏计算成本的全注意力Transformer。Transformer提供了一类表现力强的架构，对序列建模非常有效。然而，Transformer的关键限制是它们相对注意力层序列长度的二次记忆量和时间复杂度O(L)，这限制了对极长序列的应用。大多数现有方法利用注意力矩阵中的稀疏性或低秩假设来降低成本，但牺牲了表达能力。本文提出Combiner，在每个注意力头中提供完全的注意力能力，同时保持低计算和内存复杂度。其关键思想是将自注意力机制视为对每个位置的嵌入的条件期望，并用结构因子化来近似条件分布。每个位置都可以通过直接注意力或间接注意力来注意到所有其他位置的抽象，这些抽象又是对相应局部区域嵌入的条件期望。在现有的稀疏Transformer中使用的大多数稀疏注意力模式能够启发全注意力的这种因子化的设计，导致同样的次二次方成本。Combiner是现有Transformer中注意力层的平移替换，可以很容易地在普通框架中实现。对自回归和双向序列任务的实验评估，证明了该方法的有效性，在一些图像和文本建模任务上产生了最先进的结果。

CMT: Convolutional Neural Networks Meet Vision Transformers

J Guo, K Han, H Wu, C Xu, Y Tang, C Xu, Y Wang

[Noah’s Ark Lab & University of Sydney]

CMT：卷积神经网络与视觉Transformer的混合架构。视觉Transformer已经成功地应用于图像识别任务，得益于其能捕捉图像中的长程依赖关系。然而，Transformer和卷积神经网络(CNN)在性能和计算成本方面仍然存在差距。本文的目标，是开发一个不仅可以超越典型的Transformer，还能超越高性能卷积模型的网络。提出一种新的基于Transformer的混合网络，利用Transformer来捕捉长程依赖关系，用CNN来模拟局部特征。对其进行扩展，得到了一个叫CMT的模型族，与之前基于卷积和Transformer的模型相比，获得了更好的精度和效率。特别是，CMT-S在ImageNet上达到了83.5%的最高精度，同时在FLOPs上比现有的DeiT和EfficientNet分别小14倍和2倍。所提出的CMT-S在CIFAR10（99.2%）、CIFAR100（91.7%）、Flowers（98.7%）和其他具有挑战性的视觉数据集如COCO（44.3% mAP）上也有很好的通用性，而且计算成本大大降低。

Perceiver: General Perception with Iterative Attention

https://hub.fastgit.org/lucidrains/perceiver-pytorch

很多星

A Jaegle, F Gimeno, A Brock, A Zisserman, O Vinyals, J Carreira

[DeepMind]

Perceiver：基于迭代注意力的一般感知。生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等不同模态的高维输入来感知世界，而深度学习使用的感知模型是为单模态设计的，通常依赖于特定领域的假设，如几乎所有视觉模型所利用的局部网格结构。这些先验引入了有用的归纳偏差，但也将模型锁定在个别模态上。本文提出Perceiver——一种建立在Transformers基础上的模型，对其输入之间的关系没有什么架构上的假设，但也可以像ConvNets一样扩展到数十万个输入，可以处理任意的传感器配置，在所有层面上实现信息的融合。该模型利用非对称的注意力机制，将输入迭代提炼成一个紧密的潜在瓶颈，使其能够扩展到处理非常大的输入。实验表明，该架构在各种模式的分类任务上与强大的专门模型相竞争，甚至超过了它们：图像、点云、音频、视频和视频+音频。Perceiver通过直接处理50,000个像素，在ImageNet上获得了与ResNet-50和ViT相当的性能。它在AudioSet的所有模式中也有竞争力。

Long-Short Transformer: Efficient Transformers for Language and Vision

https://hub.fastgit.org/lucidrains/long-short-transformer

C Zhu, W Ping, C Xiao, M Shoeybi, T Goldstein, A Anandkumar, B Catanzaro

[NVIDIA & University of Maryland]

长-短Transformer：面向语言和视觉的高效Transformer。Transformer在语言和视觉领域都取得了成功。然而，将它们扩展到长序列(如长文档或高分辨率图像)是非常昂贵的，因为相对于输入序列的长度，自注意力机制具有二次的时间和记忆复杂度。本文中提出长短Transformer(Transformer-LS)，一种高效的自注意力机制，用于语言和视觉任务的长序列建模，具有线性复杂度。该方法聚集了一种新的长程注意力和一种短程注意力，前者用动态投影来模拟远距离相关性，后者用来捕捉细粒度的局部相关性。提出一种双重归一化(DualLN)策略，已解决这两种注意力机制之间规模的不匹配，更有效地聚合局部和全局注意力。Transformer-LS可用于自回归和双向模型，没有额外的复杂性。该方法在语言和视觉领域的多个任务上都优于最先进的模型，包括Long Range Arena benchmark、自回归语言建模和ImageNet分类。例如，Transformer-LS在enwik8上用比以前的方法少一半的参数实现了0.97的测试BPC，同时速度更快，与相同硬件上的全注意力版本相比，能够处理3倍长的序列。在ImageNet上，可以获得最先进的结果（例如，仅在224×224的ImageNet-1K上训练的Top-1准确率为84.1%），同时在高分辨率图像上更具可扩展性。

Rethinking Positional Encoding

J Zheng, S Ramasinghe, S Lucey

[University of Adelaide]

位置编码的反思。基于坐标的多层感知器通过将坐标位置编码为一系列的傅里叶特征，在保留高频信息方面受益匪浅。到目前为止，这些位置编码的有效性的理由只通过傅里叶的视角进行研究。本文试图扩大这种理解，表明其他非傅里叶嵌入函数确实可以用于位置编码，其性能完全由嵌入矩阵的稳定秩和嵌入坐标间距离保持两者的权衡决定。现在无处不在的位置傅里叶特征映射是满足这些条件的一个特例。提出了一个更普遍的理论来分析移位基函数方面的位置编码。推导了必要的理论公式，并从经验上验证了该理论主张在实践中是成立的。提出了一种新的位置编码机制，在某些约束条件下，可以将任意的连续信号作为潜嵌入器，使位置编码有更多的可解释性和更少的限制性，可用于各种计算机视觉任务。

Augmented Shortcuts for Vision Transformers

Y Tang, K Han, C Xu, A Xiao, Y Deng, C Xu, Y Wang

[Peking University & Huawei Technologies & University of Sydney]

视觉Transformer的增强捷径。Transformer模型最近在计算机视觉任务上取得了很大的进展。视觉Transformer的快速发展主要是由于其从输入图像中提取信息性特征的强表示能力。然而，主流的Transformer模型都是采用深度架构设计的，随着深度的增加，特征的多样性会不断减少，也就是特征坍缩。本文从理论上分析了特征坍缩现象，研究了这些Transformer模型中捷径和特征多样性之间的关系。提出了一个增强捷径方案，该方案在原始捷径上并行插入了具有可学习参数的额外路径。为节省计算成本，进一步探索了一种高效方法，用块循环投影来实现增强捷径。在基准数据集上进行的广泛实验证明了所提出方法的有效性，使最先进的视觉Transformer的准确度提高了1%，而没有明显增加它们的参数和FLOPs。

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

CSWin Transformer：带十字形窗口的通用视觉Transformer骨干

X Dong, J Bao, D Chen, W Zhang, N Yu, L Yuan, D Chen, B Guo

[University of Science and Technology of China & Microsoft Research Asia & Microsoft Cloud + AI]

Focal Self-attention for Local-Global Interactions in Vision Transformers

J Yang, C Li, P Zhang, X Dai, B Xiao, L Yuan, J Gao

[Microsoft Research at Redmond & Microsoft Cloud + AI]

视觉Transformer局部-全局交互焦点自注意力。最近，视觉Transformer及其变体在各种计算机视觉任务中显示出巨大的前景。通过自注意力捕捉短程和长程视觉依赖关系的能力是成功的关键，但同时也带来了挑战，因为需要四倍的计算开销，特别是对于高分辨率的视觉任务(如目标检测)。最近的许多工作试图通过应用粗粒度的全局注意力或细粒度的局部注意力来减少计算和内存成本并提高性能。然而，这两类方法都削弱了多层Transformer原始的自注意力机制的建模能力，从而导致了次优的解决方案。本文提出焦点式自注意力，同时包含细粒度局部和粗粒度全局的交互。每个标记在细粒度上关注其周围近处的标记，在粗粒度上关注远处的标记，可有效地捕捉短程和长程的视觉依赖。基于焦点自注意力，提出一种新的视觉Transformer模型变体，Focal Transformers，在一系列公共图像分类和物体检测基准上取得了比最先进的视觉Transformer更高的性能。

Global Filter Networks for Image Classification

Y Rao, W Zhao, Z Zhu, J Lu, J Zhou

[Tsinghua University]

面向图像分类的全局滤波网络。最近，用于视觉的自注意力和纯多层感知器(MLP)模型的进展显示出巨大潜力，以较少的归纳偏差实现了可喜的性能。这些模型通常是基于从原始数据中学习空间位置之间的相互作用。随着图像大小的增加，自注意力和MLP的复杂性呈四次方增长，这使得这些模型在需要高分辨率特征时难以扩大规模。本文提出全局滤波网络(GFNet)，一种概念简单但计算效率高的架构，以对数线性的复杂度学习频域中的长程空间依赖关系。该架构用三个关键操作取代了视觉transformer中的自注意力层：二维离散傅里叶变换，频域特征和可学习全局滤波器之间的逐元乘法，以及二维反傅里叶变换。展示了该模型在ImageNet和下游任务中有利的准确性/复杂性权衡。实验结果表明，GFNet在效率、泛化能力和鲁棒性方面可以成为transformer式模型和CNN的一个非常有竞争力的替代方案。

AutoFormer: Searching Transformers for Visual Recognition

AutoFormer：面向视觉识别的Transformer架构搜索

2021-10-12

推荐阅读更多精彩内容