这篇paper做的任务是video-text retrieval任务,也就是给定文本检索视频或给定视频检索文本。为了应对复杂的语言和视频内容,本文提出了层级化的graph reasoning(HGR),分别从事件(event),action(行为)以及实体(entity)三个层次对视频和语言建模,构建成graph中的node;关于视频和语言的对齐也是分别计算三个层次的score,最后给出综合预测。
上图是HGR的网络结构,对语言来说,event特征就是整句话所有token的attention加权,action和entity分别为表示行为和实体的token特征,entity和action之间连边,action再和entity连边,边的含义即是action和entity的关系;在graph上推理的时候,作者还提出了两种边权,分别是contextual和role,contextual边权就是node特征计算attention得到的,role则是节点间的语义关系得到,如patient,location等,每种语义关系都学习一个变换矩阵。
对视频来说,节点获取相对简单一些,event也是所有帧特征的加权平均,action和entity则是每一帧都运用action或entity变换矩阵提取其行为或实体特征。最终在每个层级的视频-文本特征间计算匹配score,最后取平均。
个人感觉这种层级化的想法比较自然直接,但是文章在提取视频的action和entity节点特征时稍微有些奇怪,特别是action特征,明显是时序性更强的,那么应该是基于多帧特征融合提取,但是文章为了省事直接在每一帧上用一个变换矩阵提取,到底能否提取到相应特征还是存疑的。