关于置信度的理解:
对于每个GT,都要找到负责预测它的单元,即确定图像的cell和具体的anchor box。
YOLOv3分三个尺度预测,一共9个anchor box,每个尺度的每个cell分别预测三个box。
那么对于给定的GT,将GT顶点平移到顶点处,选出最大IOu对应的anchor。因为每个anchor都属于一个尺度,所以就确定了图像的尺度,然后根据GT中心位置坐标,即可确定cell,将对应尺度对应cell,对应anchor,对应的置信度单元设置为1。
该置信度除了反应该cell是否有目标(最匹配的cell和尺度),还反映box预测准确度(每个box对应一个anchor box,该anchor box就是事先挑选出的IOU最大的box,最匹配的box)。实际预测时,该值越大,说明该box对应的anchor box越匹配,根据该anchor box预测的box就可能越匹配。
整体过程:
得到多尺度特征图后,每个位置对应一个cell,每个cell提取该区域的高维、高语义特征,用于后续的分类和回归任务。每个cell对应三个box。,每个box对应预测置信度、类别和坐标偏移量。最后使用NMS得到最终预测结果。
记住一点,最终的损失,都是在特征层的高维特征作为输入计算的