TL;DR
基于类别的难样本挖掘。
先挖掘难的类别,再在难类别中选取难样本。
方法
- 样本挖掘
首先选取一个样本anchor,其类别为 , 记 表示从类别 中随机选取的 个样本组成的集合。根据如下公式选取 个和相似度最大的类别。公式简单理解为用类别特征和所有样本求取相似度(取最大值),找到top 个类别。
在的所有类别的样本中,继续按照样本筛选和中所有样本相似度最大的个样本。
loss中除了包含triplet loss之外,还新增了如下项(norm后的softmax?),用于约束样本对类别的相似度。
triplet进行了优化,做了加权,提高了semi-hard样本的权重。