行人重识别面临的两个major challenges:
缺少跨视角的成对图片来训练;
在有大量不同姿态的数据中难以提取不受姿态变化影响的稳定特征;
现有的person re-id的算法的局限性:
难以拓展到大规模的camera networks,因为大规模的监控区域包含了大量的不同角度不同姿态不同身份的行人信息。现有的模型需要充足的不同身份不同摄像头角度的标记数据来训练。要获取这样的数据非常困难(多少人工多少智能)
用一个摄像头网络的数据训练的模型难以泛化到新的摄像头网络上,一般都需要用额外的数据去做fine-tuning。
解决思路
减小姿态的不同对于行人的外表的影响,使得re-id模型可以提取稳定的高辨识度特征。而在没有姿态变化的情况下学习到的特征与在具有大量姿态变化的情况下学习到的特征不同且互补。
定义8种典型姿态,然后将数据集中的行人归一化到这8种姿态中。
Contributions
使用一个PN-GAN将数据中的所有行人归一化到8个姿态中,将从真实数据中提取到的行人特征和生成数据中提取到的行人特征融合之后做re-id匹配。
方法
framework overview
论文方法的总体流程是:对于给定的源图片
在pose estimation 方面,文章用的也是现成的模型:OpenPose ,可以直接用到任意数据集上提取行人的18个关键点。
canonical pose
对行人姿态进行归一化,将数据集中的每个行人的姿态都变换到上图(a)中的 8 种姿态。为了选取出具有代表性的8种姿态,论文将一个数据集中的所有图片数据都提取出对应的姿态,用预训练好的VGG-19提取出对应的姿态图的特征,然后用K-means算法将所有的姿态图做cluster,随后将每一个簇的平均值作为一个典型姿态(上图(b))。
PN-GAN
具体的姿态迁移模型如上图。模型需要成对的训练数据:需要改变姿态的行人图片
Generator的loss
实验结果
在Market数据集上做监督学习的结果,ResNet-50-A是论文模型中直接抽取真实行人图片特征的re-id模型。可以看到,其实论文提出的融合从生成的8个姿态图片中提取到的特征来做re-id的效果跟直接用ResNet-50-A做re-id的效果相比,没有非常大的提升,这在后面做直接迁移到CUHK数据集上的结果对比中尤其明显。
随后论文在CUHK01和CUHK03数据集上都做了对比,TL表示将论文在Market上预训练好的模型不经过fine-tune直接用到CUHK数据集上的结果。从直接在CUHK上使用模型的结果来看,使用了融合了生成图片特征的完全体模型并不比仅仅使用真实数据训练的ResNet-50-A有多大的优势。
PN-GAN生成结果如下:
总结一下,论文通过将姿态归一化来去除掉姿态变化对re-id模型提取特征的影响,用的东西也是现成的,比如说PN-GAN的实现思路跟Pose Guided Person Image Generation里如出一辙等。最后实验的效果比直接使用ResNet-50去做re-id的结果提升也不算特别大(尤其是直接用到新的数据集上测试性能的时候)。我觉得可能是生成的图片没有能够很好的还原真实的信息,或者无法提供re-id模型想要提取的特征。另一篇文章Pose Transferrable Person Re-identification就尝试用训练好的re-id模型去引导生成器恢复re-id模型需要提取的特征信息,感觉这个也比较可行。