1、动作行为识别方法概述(理解总结版)
1.1基于模式识别的识别方法
1.1.1 基于轮廓特征识别
针对轮廓特征识别,我所理解的最简化版是这样的,首先将归一化轮廓图像划分16个区域,计算每个子区域的面积,将区域面积特征写成列向量并归一化。然后计算关键距离的变化量(如左脚尖与右脚跟、质心到最外轮廓的距离等)写成列向量并归一化。最后将样本进行降维、主成分分析等,采用最邻分类器进行分类进行训练学习。【图片是分割的一个距离,线条ppt手画,较菜。】
1.1.2 基于协同表示识别
一般来讲,提到协同表示是要和核协同表示是相结合的,协同表示的分类方法即将每类特征向量进分为训练和测试两组,用训练集计算协同表示系数,最后以该系数计算测试样本的重构残差进行分类。核协同表示则是加入了核方法(一种解决非线性模式分析的方法),基本思想史将原始数据映射到特征空间,使原来线性不可分的数据变得具有可分行,然后进行特征提取,最后采用协同表示方法构建测试样本的重构矩阵,然后进行训练分类学习。
1.1.3基于视角归一化识别
通俗的讲,视觉归一化即是要找到用以目标不同视角的姿态或步态图像之间的变换关系(找到对应特征点或特征区域)。具体的方法则是找到图像的不变特征以后,在不变特征的基础上,通过对不同视角下的特征图像的秩进行低秩优化,即将图像全部归一化到90°(因为通常90°下特征图像秩最小,最准确),然后与训练样本进行匹配。
1.2 基于向量空间的识别方法
1.2.1 时空帧特征识别
其主要核心思想是将每一帧动作的特征表示为向量空间的一点,则一个动作表示成点的集合,然后从帧集合中提取聚类中心,构成最终的向量空间用于分类。最后使用方差加权法或熵加权法,根据聚类中心判定能力的强弱,赋予不同的权重,最后判定这是哪一个动作。
1.2.2 加权图+全局最优匹配识别
其主要核心思想是从每一类行为的帧特征集合中提取聚类中心,构成加权图的顶点,利用中心点的事件相关性构成加权图的边,用时间聚类算法计算边的权重,最后用全局最优行为序列匹配方法计算加权图和特征序列之间的距离。
1.3 基于深度学习的方法
1.3.1 基于分类模型识别
主要核心思想是将每一个单独的动作动作当成是单独的类别,以分类的形式去识别动作,目前用的最多的依旧是万能的ResNet系列,其它的VGG之类的分类网络都能用,由于比较常用,不多啰嗦。
1.3.2 基于骨骼分析识别
主要核心思想是讲人分解成一个个骨骼关节点,因为骨骼不受背景、光照等因素影响,目前骨骼模型除了万能的ResNet系列(没错,又是它),其它的POSE模型大多是SPPE架构模型,SPP框架结构主要由SSTN、PNMS、PGPG、三部分组成,其中,SSTN分为STN和SDTN,STN负责接收人体框、SDTN负责产生候选姿态,PNMS负责过滤、然后PGPG投入网络训练。目前比较流行的有OpenPose(包括原版和light版)、AlphaPose、各种轻量级MoblieNet。
2、行为识别后的事件分析策略和辅助方法
2.1 事件分析基本策略概述
2.1.1 基于原子动作和一二元关系策略(基础)
单个最简单的动作我们通常称为原子动作,因此我们最为基础和简单的事件分析方法就是在时序的基础上,将这些原子动作通过一元和二元关系串联起来。下面举例两个基本的。
【同样PPT画的,万能的PPT啊。】
2.1.2 时间时序与或图策略(微微进化)
时序与或图是一种随机上下文关联法,可以有效的表示多种事件的发生。其核心思想是分析每一帧的动作,通过串联原子动作中的关系,对下一步的关系进行预测。我们举个栗子(熟的,可以吃的那种):办公室场景中,一个人去到桌子旁,有可能是拿杯子喝咖啡,有可能是打电话,可能是玩手机、也有可能是用电脑,当拿起电话时,有两个便被排除,剩下玩手机和打电话,以此类推,计算每一帧动作的概率,并将大于阈值的概率推给下一步,小于的不解析,从而降低算法复杂度。
2.2 事件分析的一些辅助方法
2.2.1 基于某个关键性的原子动作
字面意思。基于某个关键性的原子动作,就认定行为,比如床上范围内,躺着就认定是在睡觉之类的。
2.2.2 基于社会角色的判断
在一定的社会角色范畴中,根据每个角色执行相关事件的概率,以空间向量的方式确立角色模型,使用加权的形式进行训练。比如教师靠近黑板是教书,学生则是在答题。
2.2.3 基于场景的事件解析
即在某个特定的场景中,通过场景里群体干某一件事的概率的多少,比如同时装水的概率、同时读书的概率、同时吃饭的概率等等来判定某个目标的事件。
掺杂大量个人理解,记录准确性不担保,随时改(●ˇ∀ˇ●)