误差
给定样例集 D
,y ∈{-1, +1}
,样本是独立同分布采样。
泛化误差为
经验误差为
h
为输入空间到输出空间的一个映射。
我们需要解决的问题有两个:
- 如何使经验误差
Ein
和泛化误差Eout
尽量接近。 - 如何使泛化误差
Eout
(或经验误差)尽量小。
概率近似正确(Probably Approximately Correct,PAC)
给定一个训练集 D
,我们希望基于机器学习算法f学得的模型所对应的假设 h
尽可能的接近目标概念 c
,这就是“概率”“近似正确”的含义。形式化的说,令 δ
表示置信度,可定义
PAC辨识(PAC Identify):
其中,0 < ϵ,δ < 1。
即,学习算法f能以较大的概率(至少 1 - δ
)学得目标概念 c
的近似(误差最多为 ϵ
)。如果模型在短时间内利用少量的(多项式级别)样本就能学得目标概念 c
的近似,则称概念类 c
对假设空间 H
而言是 PAC可学习
的。
引入一个引理
该引理表明,样例数量
m
越大,|Eout(h)−Ein(h)|≤ϵ
发生的可能性就越大。根据该引理,可以得到要如下定理
从上式中,我们可以得到,样例数一定的情况下,模型越复杂(假设空间的假设数越多),|Eout(h)−Ein(h)|≤ϵ
发生的可能性就越小。
综合上述,我们得到一个关于假设空间大小|H|
的矛盾:样例数m
一定的情况下,如果|H|
很大,模型就足够复杂,就可以更好的拟合样例,但是会使泛化误差和经验误差的差距很大;如果|H|
很小,可以使泛化误差和经验误差很接近,但是模型非常简单,经验(泛化)误差都比较大。
VC 维
在现实中,学习任务面临的通常是无限的假设空间,例如实数域中的所有区间,这就使上式中的|H|
失去了一定的意义(因为假设空间都很大),因此我们需要引入一个相对于上式更"紧"的条件。我们先引入增长函数。
增长函数
表示假设空间H
对m
个样例所能赋予标记的最大可能结果数。
我们得到了一个更紧的上界
这个不等式也从侧面揭示了为什么 CNN
等精度很高的算法需要非常大量的训练集,而线性回归等算法只需很少的训练集就能收敛。
介绍两个重要的概念:
-
对分(dichotomy):对二分类问题来说,
H
中的假设对D
中示例赋予标记的没每种可能结果成为对D
的一种“对分”。 -
打散(shattered):若假设空间
H
能实现示例集D
上的所有对分,即Π_H (m)=2^m
,则称示例集D
能被假设空间H
“打散”。
我们可以正式定义 VC 维了
VC 维(Vapnik-Chervonenkis Dimension):
VC(H) = d 表明大小为d的实例集能被假设空间 H 打散。
如果假设空间 H
的 VC 维为 d
,我们可以给出增长函数的上界
还可以得出另外一个结论
即基于 VC 维的泛化误差界与数据分布无关。
令
h
表示学习算法输出的假设,若 h
满足
则称学习算法
f
满足经验风险最小化。
根据上式,可以得到另外一个有用的定理
任何 VC 维有限的假设空间都是 PAC 可学习的
先写到这把,以后再补充。
参考资料
- 《机器学习》,周志华,清华大学出版社
- 机器学习基石课程,林轩田,台湾大学