Inductive Learning Hypothesis:
Any hypothesis found to
approximate the target function well over (a sufficiently large)
training data set will also approximate the target function well
over held-out test examples
假设与假设空间
假设可以认为是某种规律,也可以说某个模型。一个特定问题可以有很多假设(往往是无穷多的),这些假设就组成了假设空间。借助算法,我们可以从假设集中选出合理的假设。
归纳偏好
算法的目的是要根据训练数据,从假设空间中选出最佳的一个假设。可能假设空间中有很多假设都满足训练集,这些假设构成版本空间。
接下来还要从版本空间中挑一个假设出来。在其中假设都满足训练数据的情况下,算法必然要有一些偏好,比如希望模型更普适还是更特异。比较常用的一种偏好称为“奥卡姆剃刀原则”,即选择最简单的那个假设。
Overfitting过拟合
在统计学和机器学习中,overfitting一般在描述统计学模型随机误差或噪音时用到。它通常发生在模型过于复杂的情况下,如参数过多等。overfitting会使得模型的预测性能变弱,并且增加数据的波动性。
发生overfitting是因为评判训练模型的标准不适用于作为评判该模型好坏的标准,模型通常会增强模型在训练模型的预测性能。但是模型的性能并不是由模型在训练集的表现好坏而决定,它是由模型在未知数据集上的表现确定的。当模型开始“memorize”训练数据而不是从训练数据中“learning”时,overfitting就出现了。比如,如果模型的parameters大于或等于观测值的个数,这种模型会显得过于简单,虽然模型在训练时的效果可以表现的很完美,基本上记住了数据的全部特点,但这种模型在未知数据的表现能力会大减折扣,因为简单的模型泛化能力通常都是很弱的。
上面这个图,是通过线性函数和多项式函数来拟合这些数据点,显然多项式函数拟合效果很完美,包含了所有的点,而线性函数丢失了大部分点。但实际上,线性函数有一个很好的泛化能力,如果用这些点来做一个回归线,多项式函数过拟合的情况更糟糕。
过拟合不仅和参数的个数以及数据有关,也和数据形状模型结构的一致性有关。
为了避免过拟合,有必要使用一些额外的技术(如交叉验证、正则化、early stopping、贝斯信息量准则、赤池信息量准则或model comparison),以指出何时会有更多训练而没有导致更好的一般化。
泛化(generalisation)是指模型很好地拟合以前未见过的新数据(从用于创建该模型的同一分布中抽取)的能力。
Bias和Variance 偏差和方差
当我们谈论机器学习模型的误差的时候,这个误差可以主要分为两部分,bias和variance。一般情况下,模型需要在bias和variance之间取得一个平衡。bias小的模型,variance一般大;variance小的模型,bias一般大。更好的理解bias和variance的关系能够帮助我们更好的应付模型的过拟合和欠拟合问题。接下来对bias和variance者两种误差进行介绍。
Error due to Bias: Bias表示的就是模型预测的值和真实值之间的距离的期望。所以我们会通过建立多个模型(如使用不同的数据子集)来估计这个误差期望值。Bias代表着算法的拟合能力。
Error due to Variance: Variance表示的是当你对一个模型使用不同的数据进行多次建模时,这些模型在某一个点上的预测值的方差就是该模型在这个点上预测值的variance。其实就是预测值的方差的意思。Variance代表这算法的鲁棒性。
图1: bias和variance的图示
Remember:
• High bias and high variance are often “bad”, but low bias and low variance are no guarantee of “good”!
• The weighted random classifier is low bias
• 0-R is low variance (zero variance)
• Lower bias and lower variance is no guarantee of “better”!
• But generally desirable, all else equal