自己制作人脸识别的分类器

在学习人脸识别的时候,我们常用到各种分类器,如haarcascade_frontalface_default.xml。但是我们会疑惑，这个分类器是从哪里来的，为此我写了这篇文章解答各位的疑惑。
首先我们要安装OpenCV，官网地址为https://opencv.org/。我们可以安装在任意位置，在opencv\build\etc\haarcascades目录下，我们可以看到有很多OpenCV已经训练好的分类器。

image.png

网上在其他地方下载的分类器的文件，和这里并没有什么区别。在这里，我并不想使用别人训练好的分类器，我想自己动手制作一个。
在官方教程中的描述如下，http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/user_guide/ug_traincascade.html

我们可以知道，OpenCV有两个程序可以训练级联分类器： opencv_haartraining 和
opencv_traincascade。这二者主要的区别是opencv_traincascade 支持 Haar 和 
LBP(Local Binary Patterns)  两种特征，并易于增加其他的特征。与Haar特征相比，
LBP特征是整数特征，因此训练和检测过程都会比Haar特征快几倍。LBP和Haar特征
用于检测的准确率，是依赖训练过程中的训练数据的质量和训练参数。训练一个与基
于Haar特征同样准确度的LBP的分类器是可能的。

opencv_traincascade and opencv_haartraining 所输出的分类器文件格式并不相同。
注意，新的级联检测接口（参考 objdetect 模块中的 CascadeClassifier 类）支持这两
种格式。 opencv_traincascade 可以旧格式导出选练好的级联分类器。但是在训练过
程被中断后再重启训练过程， opencv_traincascade and opencv_haartraining 不能
装载与中断前不同的文件格式。

opencv_traincascade 程序使用TBB来处理多线程。如果希望使用多核并行运算加
速，请使用TBB来编译OpenCV。

一般来说，正负样本数目比例为1：3时训练结果较好，但是不是绝对。由于每个样本的差异性不同等因素，所以没有绝对的比例关系。但是负样本需要比正样本多，因为原则上说负样本的多样性越大越好，我们才能有效降低误检率，而不仅仅是通过正样本的训练让其能识别物体。在本次训练中，我选择了63个正样本和200个负样本，均为灰度图像。
进入采取的样本的目录,输入如下命令:

dir /b/s/p/w *.jpg > positives.txt

替换掉目录中的路径名,只保留文件名:

image.png

注意：负样本的图片大小可以不用进行归一化成统一大小，因为其在训练的时候可以进行指定大小，训练时会进行图像resize操作。

接着就是正样本的生成，其是比较重要的。其中正样本的样本采集有两种方法：

A、只通过一张正样本图片，结合负样本进行其他正样本的生成。这种方法比较适合刚性的物体，即正样本目标不会变形，所以要对其进行样本采集比较困难，例如交通LOGO牌，无法对其进行变形采用。这种情况可以通过图像手段来对其进行一些图像预处理操作，从而产生样本。其使用的指令是：

其要使用【-img】参数来指明单张正样本，其中的【num】是指通过这一张正样本要生成的样本数量，其是通过负样本结合来生成的，负样本主要是给旋转等操作后的正样本提供背景。他会在生成样本的同时直接生成vec文件。

注意：其中更好的生成样本的工具代码是：opencv-haar-classifier-training 其使用脚本来调用opencv_createsamples.exe进行样本的生成，而且也可以顺路生成vec文件，真的超方便。

B、通过人为采集所有训练样本。其中正样本的txt文件格式如下,其中文件路径后面的格式是在指令生成后自己手动替换得到的：

其指令如下：

image.png

此时提供的是包含所有的正样本路径的txt文件，其生成可以参考上面的方法。此时这里设置的x、y、z三轴旋角等一些数据增城的参数是不会被采用的，其只有上面A单张样本是才使用这些参数。其中的【-num】的只要小于或等于正样本的指，否则会报错。

注意：这是把所有目标都裁剪下来的处理方式，而且需要进行样本归一化。还有一种就是使用工具在整张图片上进行正样本标注，其可以使用ObjectMarker工具。具体过程参考博客：基于级联分类器的多目标检测

3、级联分类器的训练：

但样本都准备好后，其训练指令为：

opencv_traincascade -data classifier -vec pos.vec -bg negatives.txt   -numStages 20 -minHitRate 0.999 -maxFalseAlarmRate 0.5 -numPos 14000   -numNeg 10000 -w 20 -h 20 -mode ALL -precalcValBufSize 1024   -precalcIdxBufSize 1024 -featureType LBP
pause

通用参数：

-data <cascade_dir_name>
目录名，如不存在训练程序会创建它，用于存放训练好的分类器。
-vec <vec_file_name>
包含正样本的vec文件名（由 opencv_createsamples 程序生成）。
-bg <background_file_name>
背景描述文件，也就是包含负样本文件名的那个描述文件。
-numPos <number_of_positive_samples>
每级分类器训练时所用的正样本数目。其指设置为正样本数量的85%（这是一个保守值）。具体的也要根据级联器的层数来决定的。因为每个stages都是会增加图片数量来进行分类。
-numNeg <number_of_negative_samples>
每级分类器训练时所用的负样本数目，可以大于 -bg 指定的图片数目。
-numStages <number_of_stages>
训练的分类器的级数。
-precalcValBufSize <precalculated_vals_buffer_size_in_Mb>
缓存大小，用于存储预先计算的特征值(feature values)，单位为MB。
-precalcIdxBufSize <precalculated_idxs_buffer_size_in_Mb>
缓存大小，用于存储预先计算的特征索引(feature indices)，单位为MB。内存越大，训练时间越短。
-baseFormatSave
这个参数仅在使用Haar特征时有效。如果指定这个参数，那么级联分类器将以老的格式存储。
级联参数：
-stageType <BOOST(default)>
级别（stage）参数。目前只支持将BOOST分类器作为级别的类型。
-featureType<{HAAR(default), LBP}>
特征的类型： HAAR - 类Haar特征； LBP - 局部纹理模式特征。
-w <sampleWidth>
-h <sampleHeight>
训练样本的尺寸（单位为像素）。必须跟训练样本创建（使用 opencv_createsamples 程序创建）时的尺寸保持一致。
Boosted分类器参数：
-bt <{DAB, RAB, LB, GAB(default)}>
Boosted分类器的类型： DAB - Discrete AdaBoost, RAB - Real AdaBoost, LB - LogitBoost, GAB - Gentle AdaBoost。
-minHitRate <min_hit_rate>
分类器的每一级希望得到的最小检测率。总的检测率大约为 min_hit_rate^number_of_stages。总检测率即为整个级联器的检测召回率，
-maxFalseAlarmRate <max_false_alarm_rate>
分类器的每一级希望得到的最大误检率。总的误检率大约为 max_false_alarm_rate^number_of_stages. 为整个级联器的误检率
-weightTrimRate <weight_trim_rate>
Specifies whether trimming should be used and its weight. 一个还不错的数值是0.95。
-maxDepth <max_depth_of_weak_tree>
弱分类器树最大的深度。一个还不错的数值是1，是二叉树（stumps）。
-maxWeakCount <max_weak_tree_count>
每一级中的弱分类器的最大数目。The boosted classifier (stage) will have so many weak trees (<=maxWeakCount), as needed to achieve the given -maxFalseAlarmRate.
类Haar特征参数：
-mode <BASIC (default) | CORE | ALL>
选择训练过程中使用的Haar特征的类型。 BASIC 只使用右上特征， ALL 使用所有右上特征和45度旋转特征。

此时训练的结果图：

image.png

注意：由于是20stages，所以训练时间要三四个钟，其中采用LBP特征会比Haar特征快十几倍的训练速度。还有如果想把检测准确度提高很高，则需要大量的样本和好的图像质量。

4、中断后，如果不行在继续训练，如何通过先前的中间文件来生产分类器文件cascade.xml？

方法：此时需要修改训练指令的【-numStages】将其设置成已有的states的层数，则其则会生成上面的检测文件xml。至此已经训练完成，并得到cascade.xml检测文件，接下来就是如何使用这个文件用于人脸检测，其方法是使用opencv3书里提供的人脸检测例子，只要替换相应的xml文件即可

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 227,533评论 6赞 531
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 98,055评论 3赞 414
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 175,365评论 0赞 373
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,561评论 1赞 307
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 71,346评论 6赞 404
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,889评论 1赞 321
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,978评论 3赞 439
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,118评论 0赞 286
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,637评论 1赞 333
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,558评论 3赞 354
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,739评论 1赞 369
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,246评论 5赞 355
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,980评论 3赞 346
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,362评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,619评论 1赞 280
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,347评论 3赞 390
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,702评论 2赞 370

自己制作人脸识别的分类器

推荐阅读更多精彩内容