科研:
一、光流算法
@灰度恒常约束
光流是图像亮度的运动信息描述。光流法计算最初是由Horn和Schunck于1981年提出的,创造性地将二维速度场与灰度相联系,引入光流约束方程,得到光流计算的基本算法.光流计算基于物体移动的光学特性提出了2个假设:
①运动物体的灰度在很短的间隔时间内保持不变;
②给定邻域内的速度向量场变化是缓慢的。
算法原理见链接:光流法基本原理
@LK算法:
Lucas-Kanade是一种广泛使用的光流估计的差分方法,这个方法是由Bruce D. Lucas和Takeo Kanade发明的。它假设光流在像素点的邻域是一个常数,然后使用最小二乘法对邻域中的所有像素点求解基本的光流方程。
二、Generic Object Tracking Using Regression Networks(GOTURN)
如何理解Regression
整个文章的关键点就是这,回归的是什么?当然是bounding-box的坐标,那么回归的输入变量就是current frame,输出为bounding-box的坐标。当然前提是知道previous frame中object的坐标在中心位置。那么这个Regression Network学习到的就是:object在视频中前后帧的motion到object坐标的变化!知道了object在前一帧的中心,找到object在当前帧的位置。
三、Siamese Network
Siamese网络是一种相似性度量方法,当类别数多,但每个类别的样本数量少的情况下可用于类别的识别、分类等
主要思想:
1、输入不再是单个样本,而是一对样本,不再给单个的样本确切的标签,而且给定一对样本是否来自同一个类的标签,是就是0,不是就是1
2、设计了两个一模一样的网络,网络共享权值W,对输出进行了距离度量,可以说l1、l2等。
3、针对输入的样本对是否来自同一个类别设计了损失函数,损失函数形式有点类似交叉熵损失:
最后使用获得的损失函数,使用梯度反传去更新两个网络共享的权值W。
网络结构:
四、Inception v1-v4
1.Inception v1:
深层架构与经典计算机视觉模型结合
效率越来越重要,通过扩大网络的size,即深度和每层的units数量
但是会导致过拟合与参数过多计算量太大
so:全连接——>稀疏连接(同时也满足了多尺度)
为什么加了一个1*1的卷积层之后,计算量就减少了呢?维度就降低了呢?
对于一个3*3的卷积,输入维度是100*100*500(通道是500),输出后是100*100*200(有200种3*3的卷积核,当然可以数值一样,但是一个3*3只能得到一个特征图,一张),那么这个卷积的参数为3*3*500*200(卷积大小*输入维度*输出维度)
所以,一个1*1的卷积,可以降低参数(即维度部分),将整个特征图纵向变窄~
如下图:
“#3×3 reduce” and “#5×5 reduce” stands for the number of 1×1 filters in the reduction
layer used before the 3×3 and 5×5 convolutions