卷积神经网络-第三周-吴恩达 Deep Learning Specialization 学习笔记

目标分类和定位(classification with localization)

前面的例子中讨论了很多关于图片分类的应用,在计算机视觉中另一个重要的应用是在图片中找到某一类特定物体的位置,这一类问题称为分类和定位问题。再进一步就是自动识别和检测视野内任意多类物体及其位置,这一类问题则称为目标检测 object detection。

为了在输出中标识出被定位物体的位置,神经网络的输出除了可能的分类之外还可以给出边界框的位置参数,本课中对于这四个参数用 bx,by,bh,bw 四个数字来表示。其中:bx,by 为边界中点的坐标,bh 为边界高度,bw 为边界宽度。如果将图片的左上角坐标用(0,0)表示,右下角用(1,1)表示,则这几个数字的实际数值会随着被定位目标在图片上的位置而变化。

为了得到这样的训练输出,输入数据的标签值 y 需要表示成一个包含 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 等多个数值的向量,其中 Pc 代表图片中是否包含某几类物体,包含时 Pc = 1,否则 Pc = 0,当 Pc = 1 时,Cn 代表图片中所包含的物体是所要分类的几类物体中的第几类。在实际应用中,如果 Pc = 0 那么这个标签中的剩余数值都没有意义,可以将其设置为 ?。

对于任意一个训练样本的损失函数采用平方误差的方式定义时:

  • Pc = 1 时,L(ŷ, y) = (ŷ1 - y1)2 + (ŷ2 - y2)2 + ... + (ŷi - yi)2,此处 i 表示 y 的维数,即对应位置坐标之差的平方和

  • 当 Pc = 0 时,L(ŷ, y) = (ŷ1 - y1)2

特征点检测(landmark detection)

除了可以输出 bx,by,bh,bw 这个四个坐标来定位整体位置外,还可以要求网络输出图像上的某些预先定义的一个或多个特征点的位置,并将 yPc, l1x,l1y,l2x,l2y,...,lnx,lny 表示,例如人脸识别中的眼角的位置,下巴轮廓位置等。由于这类应用中特征点的坐标值都是需要人为手工去做标注,且必须在所有样本上保持同样的标注顺序,因此是一个非常耗费人力的工作。

移动窗口目标检测(Sliding windows detection)

移动窗口目标检测是通过在大的视野或图片中以设定的步长移动某个尺寸的检测窗口,逐个窗口的检测图片中是否包含待查找目标的技术。在第一次检测时如果未发现待检测目标,可以放大窗口,并更改步长多次实施检测。这一方法相当于让系统对于图片进行扫读,其主要缺点就是遍历过程所需的计算量,而如果通过卷积运算的方式来实施这一方法,则可以大大的减小所需的计算量和时间。其核心操作方法是将前续卷积运算后的多次全连接层运算(每一次全连接层运算对应一个窗口的检测)转换成卷积运算,使得系统可以一次性的完成多个窗口的检测:

Convolutional implementation

YOLO(You Only Look Once)目标边界预测

前面提到,在很多计算机视觉任务中通过在网络中检测到目标后还要在目标的周围用边框进行标识,并且由于目标的边框形状通常为矩形而非正方形,因此目标的分类和定位的边界尺寸常用 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 这样一个向量进行标识,YOLO 算法是通过构建合适的神经网络实现边界输出的一个经典方式,其实现方法为:

  • 首先通过网格将图片分隔成多个小的子图片,每一张子图片就相当于前面一节所述的滑动窗口

  • 在每一张子图片上应用前面的分类和定位算法来寻找目标,网络在每一个子图片上的输出是 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 这样一个向量,且当 Pc = 0 时,标签向量的后续位置的值将无关紧要。如果同一个物体横跨多个子图,则令包含被检测目标的中点的子图的输出向量 Pc = 1,对应的边框坐标输出为 bx,by,bh,bw,且当网格的尺寸选择的足够小的时候,可以减量避免同一个网格中包含两个物体的中点的情况

  • 个别情况下当同一个网格中同时出现多个分类时,还可以实施 Anchor box 来构造输出,即通过选择预先设定的多个形状的 Anchor box,将输出 y 构造成可以同时表达多个 Anchor box 形状的向量,即 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn,Pc,bx,by,bh,bw,C1,C2,C3,...,Cn,Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 的形式,其中每一组数值代表与对应 Anchor box 相匹配的输出。在训练数据中会将目标分配到既包含目标中点、又能够使得被检测目标的形状与某个 Anchor box 形状具有最大交并比(Intesection over Union, IoU)的网格中。注意当预定义的 Anchor box 的数量少于被判断目标的数量时,这个算法可能无法有效的构造输出;同时当两个目标物体具有相同的 Anchor box 形状时这个方法也将失效。

  • 由于对于图片做了网格划分,因此很可能同一个目标会跨越多个网格,算法可能在多个网格中检测到同一个物体,此时就需要通过非极大抑制算法来首先找到具有最大 Pc 值的网格,再判断这个网格与其他 Pc 超过一定阈值(一般取 Pc > 0.6)的网格的交并比,并抑制掉 IoU ≥ 0.5 的网格,从而实现单个目标的单一检测输出。当被检测目标有多个分类时,需要对每一个分类单独进行一次非极大抑制检测,并将 Pc 乘以取得相应的分类的概率来评价最大值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容