作者提出了将3D卷+attention机制融入encoder-decoder结构中,同时考虑了局部时序信息和全局时序信息。
Encoder-Decoder框架
Encoder网络φ将输入编码为连续特征序列V, Encoder网络根据输入决定。
将V进行特征转化,加入了attention机制。
Decoder将V解码,在每一个时刻将V作为输入,结合上一时刻的隐藏状态与输出,得出当前时刻的隐藏状态与输出。
式中,ct为memory state,用前一时刻的状态ct-1和新的memory内容更新向量。
输入
作者取视频的前240帧来提取特征(不够的补零),在240帧中抽出26帧做卷积获取图像特征,然后利用3D卷积获取局部时空信息。利用GoogLeNet来得到1024维特征,然后3D卷积得到352位特征,最终提取的特征向量的大小为26*1376。
3D卷积:
首先以16*12*2为单位计算出每个单位的运动信息,得到了一个20*20*120的运动特征向量,然后将向量随机裁剪为15*15*120的特征向量。
3D卷积
文中的3D卷积没有太看懂,按照15*15*120算着不对。
Attention机制
在将encoder输出的特征转为Decoder阶段的输入时,需要用到特征转换函数,原来使用的是平均值:在解码阶段,在时刻t,利用评分函数:
流程为:
训练
在训练时,计算最大似然:,有N个视频,视频中有n个单词。
使用Adadelta作为优化器进行反向传播。