用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降 checkpoint+ddp的时候,可能会报这个错:把find_unuse...
用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降 checkpoint+ddp的时候,可能会报这个错:把find_unuse...
1. 通过下标取数据:index_select torch.index_select(input, dim, index)input: 待index的tensordim: 在...
今天读了一篇比较古老的文章,是旷视发表在ECCV18的一篇目标检测文章,DetNet。这篇文章应该紧跟着FPN发表的,主要针对目标检测通用backbone的问题以及FPN的问...
这篇文章是从改进ViT输入的角度来做的,在最初版本的ViT中,是将图像分成16*16个patch,每个patch展开为一个向量,作为ViT的序列化输入。这种做法虽然简单,但是...
字节跳动AI Lab最新的工作,研究了如何把ViT做的更深的问题。之前的ViT采用的都是固定的12层,所不同的是head的数目和embedding的通道数,由此构成small...
这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的可复现性,本文所提出的DeiT只需要在8块gpu上训练不到3...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)属于一种hybrid network,将cnn和transformer结合起来,以期达到比二者单独...
(可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。 ViT的网络结构其实很简单,就是一个普...
今天写代码的时候遇到一个问题,网络前向过程中有一个张量A,我想把张量A中的大于0的值变成张量B中对应的值,最初的实现是: 然后运行起来就报错了,原因是这个操作属于in-pla...
文章: FAIR的工作,用于改善实例分割以及语义分割的边缘分割结果。分割网络通常都输出比原图小很多的预测结果,然后将预测结果插值回原图大小,由此导致边缘通常不太准确。本文提出...
文章:Sun P, Jiang Y, Xie E, et al. OneNet: Towards End-to-End One-Stage Object Detection[...
冬天的圆明园真是很萧瑟呢,最不怕冷的可能就是湖里的鸭子了,游得飞起~ 今天走了一万八千步,脚趾头都冻掉了,幸好最后吃上了一碗热汤拉面。不过有一说一,这家还是石锅拌饭更好吃一些~
这篇paper做的任务是video-text retrieval任务,也就是给定文本检索视频或给定视频检索文本。为了应对复杂的语言和视频内容,本文提出了层级化的graph r...
我发现,手写损失函数一般都会运用到很多稍微复杂一些的张量操作,很适合用来学习pytorch张量操作,所以这里分析几个常用损失函数练习一下。 1. Binary Cross E...
@马春杰杰 不要把这层的参数加到optimizer里就可以了
pytorch学习经验(三) pytorch自定义卷积核操作本文的目的是使用自定义的卷积核对图片进行卷积操作。pytorch封装在torch.nn里的Conv2d非常好用,然而其卷积核的权重都是需要学习的参数,如果想要自定义一个卷积核...
60 第k个排列 从高到低,依次确定每一位的取值。首先,对于第n位来说, 每(n-1)!对应一个数,所以用k除以(n-1)!,来确定第n位的数;对于n-1位来说,每(n-2)...
329 矩阵中的最大值 普通深搜倒数第三个例子超时了,所以用了记忆数组来减少重复计算。设置pl数组,初始化全部为0,保存以(i,j)为路径开始,最长递增路径的长度。每次向四个...
84 柱状图中的最大矩形 每个高度的矩形宽度取决于向左数第一个不大于这个高度的位置,和向右数第一个小于这个高度的位置的距离。用单调栈,栈顶元素为最大值。每次遍历到第i个位置时...
201 数字范围按位与 这个题目面腾讯的时候遇到了,做过去的时候刚开始思考,没什么时间了,后面发现竟然是力扣原题,幸好是选做题啧啧啧。 :如下图所示,找到m和n的公共前缀,也...
1. 链表求和 反向求和,比较简单,从左到右扫描就可以