神仙的官网:
https://hub.fastgit.org/KaimingHe
https://hub.fastgit.org/rbgirshick
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning
https://arxiv.org/abs/2104.14558 2021.4.29 CVPR2021
我们提出了一个大规模的研究无监督时空表示学习的视频。通过对四种最新的基于图像的框架的统一分析,我们研究了一个简单的目标,可以很容易地将所有这些方法推广到时空。我们的目标是鼓励同一视频中的临时持久性特征,尽管它很简单,但它在以下方面工作得出奇地好:(i)不同的无监督框架,(ii)预训练数据集,(iii)下游数据集,以及(iv)主干架构。我们从这项研究中得出了一系列有趣的观察结果,例如,我们发现,即使时间跨度是60秒,鼓励长时间的坚持也是有效的。除了在多个基准中的最新结果外,我们还报告了一些有希望的案例,在这些案例中,无监督的预训练可以比有监督的预训练更好。代码在https://github.com/facebookresearch/SlowFast
Fast and Accurate Model Scaling https://arxiv.org/abs/2103.06877
在这项工作中,我们分析了卷积神经网络缩放的策略;也就是说,缩放一个基本卷积网络的过程,以赋予它更大的计算复杂度和相应的表示能力。示例缩放策略可能包括增加模型宽度、深度、分辨率等。虽然存在各种缩放策略,但它们的权衡还没有完全理解。现有的分析通常侧重于精度和浮点运算的相互作用。然而,正如我们所展示的,不同的缩放策略对模型参数、激活以及实际运行时的影响是完全不同的。在我们的实验中,我们得到了一个令人惊讶的结果:许多缩放策略产生的网络具有相似的精度,但具有广泛不同的性质。这导致我们提出了一种简单的快速复合缩放策略,该策略鼓励主要缩放模型宽度,同时在较小程度上缩放深度和分辨率。与目前流行的缩放策略不同,该策略导致模型激活w.r.t.缩放倍数增加约O(s),所提出的快速复合缩放策略导致激活增加接近O(s√),同时获得极好的精度。这导致了在现代内存有限的硬件(如GPU、TPU)上可比的加速。更普遍地说,我们希望这项工作能为分析和选择各种计算约束下的缩放策略提供一个框架
Exploring Simple Siamese Representation Learning https://arxiv.org/abs/2011.10566
暹罗网络已成为一种常见的结构,在各种最近的模型,无监督视觉表征学习。这些模型最大限度地提高了一个图像的两个增强之间的相似性,但要满足一定的条件,以避免崩溃的解决方案。在本文中,我们报告了令人惊讶的实验结果,简单的连体网络可以学习有意义的表示,即使使用以下任何一种:(i)负样本对,(ii)大批量,(iii)动量编码器。我们的实验表明,对于损失和结构,确实存在坍塌解,但停止梯度操作在防止坍塌中起着至关重要的作用。我们对停止梯度的含义提出了一个假设,并通过概念验证实验进一步验证了这一假设。我们的“SimSiam”方法在ImageNet和下游任务上取得了有竞争力的结果。我们希望这个简单的基线将激励人们重新思考暹罗体系结构在无监督表征学习中的作用。代码将可用。
Graph Structure of Neural Networks https://arxiv.org/abs/2007.06559
神经网络通常表示为神经元之间的连接图。然而,尽管神经网络有着广泛的应用,但目前人们对神经网络的图结构与其预测性能之间的关系知之甚少。本文系统地研究了神经网络的图结构对预测性能的影响。为此,我们开发了一种新的基于图的神经网络表示方法,称为关系图,其中神经网络计算层对应于沿图结构的消息交换轮。利用这种表示,我们证明:(1)关系图的“甜点”导致神经网络具有显著提高的预测性能;(2)神经网络的性能近似于其关系图的聚类系数和平均路径长度的光滑函数;(3) 我们的发现在许多不同的任务和数据集中是一致的;(4)甜点可以被有效地识别;(5)表现最好的神经网络的图形结构与真实的生物神经网络惊人地相似。我们的工作为神经结构的设计和对神经网络的理解开辟了新的方向。
Designing Network Design Spaces(RegNet) https://arxiv.org/abs/2003.13678
在这项工作中,我们提出了一个新的网络设计范式。我们的目标是帮助提高对网络设计的理解,发现跨环境的通用设计原则。我们设计的网络设计空间将网络的总体参数化,而不是专注于设计单个的网络实例。整个过程类似于经典的网络手工设计,但提升到了设计空间层面。使用我们的方法,我们探索网络设计的结构方面,并得出一个低维的设计空间,由简单的,规则的网络组成,我们称之为RegNet。RegNet参数化的核心观点非常简单:良好网络的宽度和深度可以用量化的线性函数来解释。我们分析了RegNet的设计空间,得出了与当前网络设计实践不符的有趣发现。RegNet设计空间提供了简单而快速的网络,可以在各种flop模式下正常工作。在类似的训练设置和失败下,RegNet模型的性能优于流行的EfficientNet模型,同时在gpu上的速度提高了5倍。
Are Labels Necessary for Neural Architecture Search? https://arxiv.org/abs/2003.12056
计算机视觉中现有的神经网络结构——无论是由人类还是由机器设计——通常都是使用图像及其相关标签来发现的。在这篇论文中,我们提出了一个问题:我们是否可以只使用图像而不使用人类标注的标签来找到高质量的神经结构?为了回答这个问题,我们首先定义了一个称为无监督神经结构搜索(UnNAS)的新设置。然后我们进行两组实验。在基于样本的实验中,我们训练了大量(500个)具有监督或非监督目标的不同体系结构,发现有标签和没有标签的体系结构排名是高度相关的。在基于搜索的实验中,我们使用各种非监督目标运行了一个成熟的NAS算法(DARTS),并报告说,在没有标签的情况下搜索的架构可以与使用标签搜索的架构相竞争。总之,这些结果揭示了一个潜在的令人惊讶的发现,即标签是不必要的,仅仅图像统计就足以识别良好的神经结构
Improved Baselines with Momentum Contrastive Learning(MoCov2) https://arxiv.org/abs/2003.04297
对比无监督学习最近取得了令人鼓舞的进展,例如动量对比(MoCo)和SimCLR。在本文中,我们通过在MoCo框架中实现SimCLR的两个设计改进来验证它们的有效性。通过对MoCo的简单修改,即使用MLP投影头和更多的数据扩充,我们建立了比SimCLR更好的基线,并且不需要大量的训练。我们希望这将使最先进的无监督学习研究更容易获得。代码将被公开
PointRend: Image Segmentation as Rendering https://arxiv.org/abs/1912.08193
提出了一种新的高效高质量的目标和场景图像分割方法。通过模拟经典的计算机图形学方法,在像素标记任务中,有效地处理过采样和欠采样问题,我们提出了一种独特的图像分割方法。从这个优势出发,我们提出了PointRend(Point-based Rendering)神经网络模块:一个基于迭代细分算法在自适应选择的位置执行基于点的分割预测的模块。PointRend可以灵活地应用于实例和语义分割任务,方法是在现有最先进模型的基础上构建。虽然许多具体实现的总体思路是可能的,我们表明,一个简单的设计已经取得了很好的效果。定性地说,PointRend在以前的方法过度平滑的区域中输出清晰的对象边界。从数量上讲,PointRend在COCO和城市景观方面都有显著的收益,例如实例分割和语义分割。PointRend的效率使得输出分辨率与现有方法相比在内存或计算方面不切实际。代码已在上提供https://github.com/facebook研究/detectron2/tree/master/projects/PointRend
A Multigrid Method for Efficiently Training Video Models https://arxiv.org/abs/1912.00998
训练有竞争力的深视频模型要比训练其对应的图像模型慢一个数量级。训练速度慢导致研究周期长,阻碍了视频理解研究的进展。按照训练图像模型的标准实践,视频模型训练采用固定的小批量形状:特定数量的剪辑、帧和空间大小。然而,什么是最佳形状?高分辨率模型表现良好,但训练缓慢。低分辨率模型训练得更快,但它们是不准确的。受数值优化中多重网格方法的启发,我们建议使用具有不同时空分辨率的可变小批量形状,这些小批量形状根据时间表而变化。不同的形状产生于在多个采样网格上对训练数据重新采样。当缩小其他维度时,通过扩大小批量大小和学习率来加速训练。我们以经验证明了一个通用且健壮的网格计划,该计划可以在不损失不同模型(I3D、非局部、慢速)、数据集(动力学、某事、字谜)和训练设置(有或没有预训练、128 GPU或1 GPU)精度的情况下产生显著的开箱即用训练加速。作为一个示例,与基线训练方法相比,所提出的多重网格方法训练ResNet-50慢速网络的速度快4.5倍(挂钟时间,相同硬件),同时还提高了Kinetics-400的精确度(+0.8%绝对值)。代码可在线获取。
Momentum Contrast for Unsupervised Visual Representation Learning(MoCo) https://arxiv.org/abs/1911.05722
本文提出了无监督视觉表征学习的动量对比(MoCo)。从词典查找的对比学习角度出发,构建了一个具有队列和移动平均编码器的动态字典。这使得能够快速构建一个大型的、一致的词典,从而促进对比无监督学习。MoCo在ImageNet分类的通用线性协议下提供竞争结果。更重要的是,MoCo学习到的表征能很好地传递给下游任务。MoCo在PASCAL VOC、COCO等数据集的7项检测/分割任务中,可以优于监督的预训练对手,有时会大幅度超过它。这表明,在许多视觉任务中,无监督和有监督的表征学习之间的差距已经基本上被缩小。
ICCV 2019上,Facebook AI 的 Ross Girshick 做了一个关于目标检测和实例分割的 tutorial,最后用19页PPT讲解了如何 writing good research papers,对这部分做个总结。
https://zhuanlan.zhihu.com/p/104279421?utm_source=wechat_session