[笔记]Pose Transferrable Person Re-Identification

原文戳此

摘要
  行人重识别领域的一个关键挑战是如何在当前的标准数据集(Market1501,DukeMTMC-reID,CUHK03)没有充足的行人姿态变换的数据的情况下训练一个鲁棒的行人重识别系统。为了解决这个问题,论文提出了一个可变换行人姿态的行人重识别框架。
  论文的工作主要有两点,一是通过将含有大量人体姿态的MARS数据集中的行人图片迁移到目标数据集中来做进一步的训练;二是在给一个行人生成新的姿态的图片的过程中,除了用GAN的判别器之外,还提出一个guider sub-network 来使得生成的图片更好的适应ReID的loss ,同时也提出了新的方法来训练论文提出的 Generator-Guider-Discriminator 网络。效果上,这种方法在Market-1501,DukeMTMC-reID 和CUHK03数据集上都有很好的性能,在不需要对ReID模型精心调参的情况下的性能比许多当前较好的ReID模型的性能要好。

1. Motivation

motivation

标准的行人数据集中比较缺少同一个人的不同姿态的数据。而比较少的工作考虑到利用GAN去生成训练数据。论文就提出一个 G-R-D(Generator - Guider - Discriminator)模型,提取MARS数据集中的行人骨架,然后迁移到目标数据集中,之后将这些生成的数据加入到目标数据集中进行训练。

2. Method

pose-tranferrable ReID architecture

2.1 Skeleton-to-Image Generation
  论文直接使用了 Realtime multiperson 2d pose estimation using part affinity fields 中预训练好的skeleton detector 算法来检测 MARS 数据集中的行人姿态并生成对应的骨架图片(RGB)。然后将这些骨架图片迁移到目标数据集中。
  训练一个skeleton-to-image 网络需要输入三元组数据:一个行人的图片 x ,一个不同姿态的骨架图片 s ,真实的行人 x 以姿态 s 走路的图片。测试的时候,通过\hat{y} = G(x,s,z) 将随机噪声 z 、一个行人图片 x 和一个 新的姿态图片 s 转换成行人 x 以 s 姿态在走路的图片 \hat{y} . 判别器 D 则辨别三元组 (x,s,y) 和 (x,s,\hat{y})。实现时,将(x,s,y) 和 (x,s,\hat{y})作为不同的 channel 同时输入到判别器中。另外,为了减小重建误差,论文加了一个 L1 loss, 最终的目标函数如下:

value function

2.2 Guider Module:ReID Boosting
  论文认为上面的 skeleton-to-image 模型只考虑了使生成的图片尽可能的看起来真实,但并不能保证用这些数据来给ReID模型训练可以提升 ReID 模型的性能。所以论文提出了一个新的 guider 模块来使得生成的图片更好的适应 ReID 问题。也就是说,G 生成的图片要同时输入到判别器 D 和 Guider R 中。这里的 R 其实就是用 cross-entropy loss或者 triplet loss 在目标数据集上预训练好的 ReID 模型。在训练G-R-D网络的时候需要固定 R 的参数。
基于Cross-Entropy 的 Guider Loss:


q_{a}
表示行人 a 的标签,
x_{a}
表示行人 a 的真实图片,
p_{R}
表示 guider R 的输出概率分布。

基于 Triplet 的 Guider Loss:
  三元组的选择使用Facenet: A unified embedding for face recognition and clustering中的策略。对于同一个行人 a 的每张图片,取 \hat{y_{a}}=G(x_a,s,z) 作为 anchor, 正样本 r_{a} 从行人 a 的真实图片中选出,而负样本\hat{y_{b}}=G(x_{b},s,z) 则是从生成的行人 b 的图片中采样而来。对构建好的三元组集合 \tau=\left \{ \hat{y_a},r_a,\hat{y_b} \right \}, Guider 的 loss 如下:


d_{i,j}
表示 ReID 模型输出的特征
R(i)
R(j)
之间的 L2 范数距离。

2.3 full objective

full objective

这里的
\lambda
\beta
是超参数。优化的目标是:
optimization target

在训练的时候,由于目标数据集(Market等)中存在的三元组(x,s,y)数据较少,论文在收集目标数据集的三元组数据的同时,从MARS数据集中收集了大量的三元组(x,s,y)做训练数据。但从MARS数据集中收集的数据只输入到判别器D中,不输入到Guider R 中,因为从MARS数据集中收集到的数据不包含人物的id 信息。
2.4 Training with Balanced Data
 通过上述方法,可以为目标数据集中的每个行人生成大量的各种姿态下的图片数据用作训练。但是,要生成逼真的行人图片仍旧困难。因此,在训练 ReID 模型的过程中,不可以认为生成的行人 k 的图片和真实的行人 k 的图片一样可靠。在实验中,作者发现,使用过多的生成样本去训练ReID 模型反而会导致模型性能的下降。因此,论文使用一个 soft labeling 来替代 hard label(给每张生成的图片一个确定的标签)
  若ReID 模型使用的loss 是 cross-entropy loss ,论文使用 Rethinking the inception architecture for computer vision 中提到的 label smoothing regularization (LSR) 来给生成的数据打标。
LSR

这里的
k \in \left \{ 1,2,...,K \right \}
表示训练数据中预定义的类别,在这里表示每一个行人id。而y 表示真实的数据,这里是指生成的图片。
\epsilon \in \left [ 0,1 \right ]
表示对于数据的置信度,是超参数,这里表示生成的数据在多大程度上可靠。当
\epsilon
置0时,表示y 是真实图片。那么使用
q_{LSR}(k)
的 cross-entropy loss 如下:

2.5 网络架构
  论文中的生成器 G 和判别器 D 直接使用作者之前的工作
Skeleton-aided Articulated Motion Generation
中所采用的结构。生成器使用了 siamese + U-Net ,输入真实的行人图片和想要转换的姿态图片。

generator

生成器具体结构如下表(Conv : convolution, BN :batch normalization, lReLU: leaky rectified linear unit,):
details of generator

判别器的结构如下表:
details of discriminator

3. Experiment
  论文在3个公开的数据集(Market1501,DukeMTMC-reID,CUHK03)上测试了文中方法的性能。选这三个数据集的原因是它们的训练数据中同一个行人的姿态不多。用ResNet-50做baseline,比较结果如下。

comparison with baseline and unsupervised sample generation method

论文先跟不使用生成数据训练的baseline 做比较,然后跟用真实数据和无监督方法LSRO生成的无标签样本图片数据一起训练的模型作比较。结果显示,论文的方法比前两种方法都要好,但对于第二种方法的优势不算大。

Comparison of the proposed method with the state-of-the-art on different datasets

然后论文与当前的其他方法做了比较,效果也不错。接下来对于guider 的影响做了实验,结果如下:

可以看到,没有使用Guider之后,对视觉效果和模型识别性能都有明显的提升。论文还发现Guider的结构跟用于重识别的模型结构不一样时,模型的性能会比两者的结构一样时的性能低0.5%左右。
最后,论文还做了另外一些实验:探索为一个行人生成不同姿态的图片数量 N 的大小对于 ReID性能的影响、超参数
\epsilon
(使用cross-entropy loss 时用于soft labeling 的参数) 和
\alpha
(使用 triplet loss 时用于 soft labeling 的参数) 的影响:

4. Conclusion
  论文主要的工作在于提出一个给re-id模型做数据增强的方法,通过变换各种姿态来生成更多的数据给re-id模型做训练。在我看来,生成行人的不同姿态图片来给re-id模型做训练是为了给re-id模型提供更多的信息,而这些生成的信息如果不能很好的还原真实信息的话,很难确定会提高还是降低re-id模型的性能。文章使用一个guider模块的话,相当于用一个训练好的re-id模型来告诉生成器自己需要提取的是哪些行人特征,迫使生成器生成的图片更利于re-id提取特征,感觉能work,效果也说明Guider的作用比较大。但这样会使得生成的图片不能很好的适应所有的re-id模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容