绪论
人类通过经验做出一些判断,在计算机系统中,经验一般以数据的形式存在。因此,机器学习所研究的主要内容是从数据中产生“模型”的算法,即学习算法。
从数据中学的模型的过程叫做学习或者训练,所学得的模型对应了数据的某种潜在规律。
1 基本概念
- 学习类型
我们所预测的结果是离散值,则这类学习任务称为分类。
若预测的结果是连续值,则称为回归。
根据训练数据是否有标记可分为:
监督学习(有标记),代表是分类,回归。
无监督学习(无标记),代表是聚类。
学习的目标是使得所学得的模型很好的适用于新样本,适应新样本的能力我们称为泛化能力。
假设空间:
假定有属性A、B、C,各自的取值有2种、3种、3种,则假设空间大小计算方式为:
3 * 4 * 4 + 1
因为取值中除了特定的值还包含通配符*,也就是说该数据取值任意。同时包括一个“空”。
通过训练集数据对假设空间进行缩减,得到的称为版本空间。归纳偏好:
归纳偏好可以看作是学习算法自身在一个庞大假设空间中对假设进行选择的启发式,如何没有归纳偏好,学习算法会被假设空间的等效假设所迷惑。
奥卡姆剃刀:若多个假设与观察一直,选择最简单的。
- NFL定理
证明过程
NFL定理:对于学习算法A,如果它在某些问题上表现的优于B,那么肯定在另一些问题上不如B
NFL定理说明:脱离了应用背景,讨论算法的优劣都是毫无意义的。