1.物体检测最直观的方法:滑框(sliding window),滑框法几乎是通过枚举的方式提供了框的位置,本质是把检测问题转换成了图片分类问题。
2.选择搜索法(selective search)
代表作:Selective Search for Object Recognition
3.R-CNN
避免滑窗法穷尽量大弊端以及使用CNN自动提取特征
第一步)对输入的图片进行区域提取,R-CNN用的selective search
第二步)对每一块提取出来的区域缩放到统一的大小,输入CNN中使之输出一个Nx1的特征向量,然后用分类器(文中使用SVM,讨论了softmax的可行性)判断该区域是不是某类物体,接着分类完成之后对选出的区域做了一个框回归(bounding box regression),最后的结果:物体种类和框的位置。
4.Fast R-CNN锚点机制
Faster-RCNN由RPN和Fast-RCNN组成,RPN负责寻找proposal,Fast-RCNN负责对RPN的结果进一步优化。其实RPN已经可以找到图片中每个物体的种类和位置,如果更注重速度而不是精度的话完全可以只使用RPN。
https://zhuanlan.zhihu.com/p/44670184