第二章模型评估与选择

上一章，简略地介绍了机器学习，以及数据集、数据集、测试集、假设空间、版本空间等等的相关概念。这一章就开始讲模型评估与选择了，因为书上是以“学习器”来称呼模型的，所以下面我也用学习器来进行说明总结。

什么是经验误差？
在分类样本时会出现分类错误，我们把分类错误的样本数占样本总数的比例称为“错误率”，精度即正确率，自然是1-错误率了。学习器的实际预测输出与样本实际输出之间的差异就称为“误差”，于训练集就是“经验误差”，于新样本就是“泛化误差”。

什么是过拟合？
我们希望学习器能在新样本的预测中有更好的效果，即泛化性能最大化。但在学习过程中，往往会把训练集中的样本学得过多，使得泛化降低，就是说学到了训练样本个体的特点而不是总体样本的特点，或者说学了这个训练集的特殊点，相对于所有潜在的样本来说的特点。这就是“过拟合”，那么与过拟合相对的就是“欠拟合”，反而思之，便是学得不到位，样本的一般性质都掌握不了！

因为过拟合无法避免，所以我们想要去减少它的风险。其实就是对模型的泛化误差进行评估，然后选择泛化误差最小那个。
对多种学习算法、参数配置进行选择即模型选择：
一个学习算法→不同参数配置→不同模型

评估方法

在实验测试中，只有数据集可用，为了对学习器的泛化误差进行评估，只能从数据集（验证集）中分离出训练集与测试集，测试集用于测试学习器对新样本的判别能力，将测试集上的“测试误差”作为泛化误差的近似。故测试集要尽可能与训练集互斥。

1. 留出法

直接将数据集划分两个互斥的集合，一个作训练集，一个作测试集。训练集、测试集的划分要尽可能保持数据分布一致性。即保持训练集和测试集中样本类别比例相差不大，否则会产生偏差。一般确定训练集与测试集的样本比例之后，对于数据集的样本划分的方法也有很多，不同划分方法造成模型评估结果也不同，所以就要进行多次留出法，随机划分重复评估再取平均值作为评估结果。对于留出法，其划分样本于训练集与测试集的比例要适当，若是训练集含有大多数样本，那么其模型结果便与数据集训练出来的模型接近，但是由于测试集样本过少，其评估结果就不那么准确，反之也是一样的道理。故常常采取2/3~4/5的样本作为训练集，其余作为测试集。

2. 交叉验证法（k折交叉验证）

将数据集划分为k个大小相似的互斥子集，即互不包含。每个子集尽可能保持数据分布的一致性，即通过分层采样得到。这k个子集又分出k-1个作为训练集，剩下一个作为测试集，可以分k次，进行k次训练和测试，最终也是求其结果的均值。同留出法，交叉验证法要随机使用不同的划分重复多次，最终结果是多次k折交叉验证结果的均值。比如“10次10折交叉验证”就会有100次训练，有100个训练结果（模型）。
交叉验证法有一个特例，其名为留一法，就是数据集有多少个样本，就划分成多少个子集，即每个子集一个样本，于是随机划分只会产生一种结果，所以这种方法被实际评估的模型与期望评估的用数据集训练出来的模型很相似。其缺点是当数据集很大的时候，用它就需要庞大的计算量（还未考虑调参）。

3. 自助法

上面两种方法是需要将数据集划分的，这样自然会让用训练集训练出的模型与用数据集训练出来的模型有一定的估计偏差。如此，自助法以自助采样法为基础，简单地讲就是重复随机抽样，从数据集D中进行重复随机抽样m次，便会得到一个含有m个样本的数据集D₁，这就是自助采样的结果。
对于样本在m次不被采集到的概率：

$\lim_{n \to +\infty} (1- \frac{1}{m})^m$ = $\frac {1}{e}≈0.368$

这说明了，D中大概有36.8%的样本没有出现在D₁中。于是我们可以把D₁作为训练集，把那约36.8%的样本作为测试集。其优点是对于数据集较小、难以有效划分训练时很有用，其缺点就是改变了初始数据集的划分，这可能会引入估计偏差。

调参与最终模型

什么是调参？
上面粗略地提到过参数的调整，我们在进行模型的评估和选择时，不仅要对学习算法进行选择，还要对算法参数进行设定，这便是调参。
梳理一下：

机器学习中大概有如下步骤：
确定模型----训练模型----使用模型。
模型简单说可以理解为函数。
确定模型是说自己认为这些数据的特征符合哪个函数。
训练模型就是用已有的数据，通过一些方法（最优化或者其他方法）确定函数的参数，参数确定后的函数就是训练的结果，使用模型就是把新的数据代入函数求值。

参阅自:机器学习为什么需要训练，训练出来的模型具体又是什么？
回到调参，对于每种参数都训练出模型是不现实的，我们应对每个参数选定一个范围和步长，选出的参数即为候选参数值（一般10个以内），最终从这些候选参数值中产生选定值。这是一种折中的结果，是为了使学习过程成为可能。
然鹅，尽管我们得到了这个模型，但这不是最终提交给用户的模型，我们需要对数据集重新训练，使用全部样本以训练出的模型，才是最终模型。

习得模型在实际遇到的数据称为测试数据；模型评估与选择中用于评估测试的数据称为"验证集"。例如：在研究对比不同算法的泛化性能时，用测试集上的判别效果来评估模型在实际使用中的泛化性能，而把训练数据分为训练集和验证集，基于验证集上的性能来进行模型选择和调参。

性能度量

是衡量模型泛化能力的评价标准。其反映了任务需求。对于给定的样例集D={(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}，其中的y是x的真实标记，现在要评估学习器f的性能，于是把f的结果与y进行比较。
回归任务——性能度量——“均方误差”：

$E(f;D)$ = $\frac{1}{m}\sum_{i=1}^n(f(x_i)-y_i)^2$ .

一般的，对于数据分布 ${\cal{D}}$ 和概率密度函数p(·)，均方误差可以表示为：

$E(f;{\cal{D}}) = \int_{x—{\cal{D}}}(f(x)-y)^2p(x)dx$ .

下面主要介绍分类任务中常用的性能度量。

错误率与精度

上面这两种就是分类任务中常用的性能度量啦！对于样例集D，分类错误率定义如下：

$E(f;D) = \frac{1}{m}\sum_{i=1}^n Ⅱ (f(x_i)\neq y_i)$ .

【注：Ⅱ(·)是指示函数。若·(即对括号内进行逻辑判断)为真则取值为1，假则取0】
精度定义：

$acc(f;D) = \frac{1}{m}\sum_{i=1}^n Ⅱ (f(x_i)= y_i) = 1-E(f;D)$ .

一般的：

$E(f;{\cal{D}}) = \int_{x—{\cal{D}}}Ⅱ (f(x_i)\neq y_i)p(x)dx$ . #错误率
$E(f;{\cal{D}}) = \int_{x—{\cal{D}}}Ⅱ (f(x_i)= y_i)p(x)dx = 1-E(f;{\cal{D}})$ . #精度

查准率、查全率与F1（查准需要的是比例高，查全需要的是数量全）

对于真实类别与学习器预测类别的异同，我们可以分为真正例、假反例、假正例、真反例，分别称为TP、FN、FP、TN（T=True，F=False，P=Positive，N=Negative）。这里的真假是针对学习器预测结果来说的。
于是查准率P与查全率R定义如下：

$P = \frac{TP}{TP+FP}$ ,
$P = \frac{TP}{TP+FN}$ .

这两个性能度量是矛盾的，呈负相关。
我们常常根据学习器的预测结果对样例进行排序，把“最可能”是正例的放在前面。按这个顺序，逐个把样本作为正例进行预测，每次都可以计算出当前的查准率与查全率，然后以查准率为纵轴，查全率为横轴，作P-R图如西瓜书p₃₁。
若一个学习器的P-R图完全包含了另一个，则说明前者性能更优于后者。
但往往会出现不完全包含，出现交叉的情况，那么我们一般用F1来对比衡量。
在说F1度量之前，先说一下平衡点。
平衡点（BEF）是综合考虑查准率与查全率的性能度量。是“查准率 = 查全率”时的取值。是一种简单的度量。
F1度量：

$\frac{1}{F1}=\frac{1}{2}·(\frac{1}{P}+\frac{1}{R})$ .→ $F1 = \frac{2×P×R}{P+R}=\frac{2×TP}{{\bf样例总数}+TP-TN}$ .

一般形式：

$\frac {1}{F_ \beta}=\frac{1}{1+\beta^2}·(\frac{1}{P}+\frac{\beta^2}{R})$ → $F_\beta=\frac{(1+\beta^2)×P×R}{(\beta^2×P)+R}$ .

其中 $\beta$ >0度量了查全率对查准率的相对重要性。 $\beta$ >1时，查全率有更大的影响， $\beta$ <1时，查准率有更大的影响。

上面提及到的性能度量的平均值（在各混淆矩阵(其实就是上面真假正反例的矩阵)上分别计算出查准率与查全率，再计算平均值）称为“宏查准率”（macro—P）、“宏查全率”（macro—R）以及"宏F1"（macro—F1），前两个均值就是算术平均的计算方式，相加除以n，最后一个则是根据前两个计算得来，参考上面F1的定义。
上面是一种做法，也可以把混淆矩阵的真假正反例进行平均，则有 $\overline{TP}$ 、 $\overline{FP}$ 、 $\overline{TN}$ 、 $\overline{FN}$ ，于是可求出“微查准率”（micro—P）、“微查全率”、“微F1”。然后你懂的，参考上面写的相关公式，代入即可。

ROC曲线与AUC

ROC全称是“受试者工作特征曲线”，根据预测结果对样例进行排序，然后按顺序逐个把样本作为正例进行预测，以每次计算出的“真正例率”（TPR）作为纵轴，“假正例率”（FPR）作为横轴。两者定义如下：

$TPR=\frac{TP}{TP+FN}$ , $FPR=\frac{FP}{TN+FP}$

ROC曲线下的面积即为AUC，是用来比较当两个学习器的ROC曲线相交不完全包含，要进行性能比较时，则使用AUC。AUC的估算：

$AUC = \frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)·(y_i+y_{i+1})$ .

其与排序误差有紧密联系，于是给定 $m^-$ 个反例， $m^+$ 个正例，令 $D^-$ 和 $D^+$ 分别表示反例、正例的集合。则排序损失定义为：

$(l_{rank}) = \frac{1}{m^+·m^-}\sum_{x^+\in{D^+}}\sum_{x^-\in{D^-}}(Ⅱ (f(x^+)<f(x^-))+/frac{1}{2}Ⅱ(f(x^+) = f(x^-)))$

$l_{rank}$ 对应的是ROC曲线之上的面积，由此有： $AUC = 1-l_{rank}$ .

代价敏感错误率与代价曲线

为何引入代价？
因为.......你这样做是要付出代价的！即为所造成结果的超额处理。引入代价是为了衡量不同类型错误所造成不同的损失，可为错误赋予“非均等代价”.
代价矩阵：

真实类别	预测类型	---
---	第0类	第1类
第0类	0	$cost_{01}$
第1类	$cost_{10}$	0

其中 $cost_{ij}$ 表示将第i类样本预测为第j类样本的代价。例如上矩阵中，损失程度相差越大， $cost_{01}$ 与 $cost_{10}$ 值的差别越大，比较一般是以代价比值而非绝对值。（即倍数关系）

从前面提到的性能度量，均是在假设均等代价前提下进行计算的，如今引入了非均等代价，便要对其考虑在内。
于是将上面代价矩阵中的第0类作正例，第1类作反例，而 $D^+$ 与 $D^-$ 分别表示正例子集和反例子集，则以错误率为例子，“代价敏感”错误率为：

$E(f;D;cost)=\frac{1}{m}(\sum_{x_i\in{D^+}}Ⅱ(f(x_i)\neq{y_i})×cost_{01}+\sum_{x_i\in{D^-}}Ⅱ(f(x_i)\neq{y_i})×cost_{10})$

除此之外，若令 $cost_{ij}$ 中的 $ij$ 不限取0和1，则可定义出多分类任务的代价敏感性能度量。
那么在非均等代价下，ROC曲线无法直接反映学习器的期望总代价，于是我们引入“代价曲线”，其横轴是取值为[0,1]的正例概率代价：

$P(+)cost=\frac{p×cost_{01}}{p×cost_{01}+(1-p)×cost_{10}}$

其中p是样例为正例的概率，纵轴是取值为[0,1]的归一化代价：

$cost_{norm}=\frac{FNR×p×cost_{01}+FPR×(1-p)×cost_{10}}{p×cost_{01}+(1-p)×cost_{10}}$

其中FNR=1-TRP。ROC曲线上的每一点对应代价平面上的一条线段，若ROC曲线上一点为（FPR，TPR）则对应一条从（0，FPR）到（1，FNR）的线段，于是所有线段的下界围成的面积即为在所有条件下学习器的期望总体代价。

比较检验

有了实验评估方法和性能度量之后，便是对学习器的泛化性能进行比较。此时为了对学习器进行适当的比较，统计假设检验为我们进行学习器性能比较提供了重要依据。该节默认以错误率为性能度量。

假设检验

1. 二项检验

2. t检验

交叉检验t检验

McNemar检验

Friedman检验与Nemenyi后续检验

偏差与方差

最后编辑于：2020.02.03 22:40:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,258评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,335评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,225评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,126评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,140评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,098评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,018评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,857评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,298评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,518评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,400评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,993评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,638评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,661评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352

第二章 模型评估与选择