1.学习方法三要素
1.1模型
学习的条件概率分布,或决策函数
1.2策略
按照什么样的准则学习,或者选择最优模型,引入损失函数和风险函数
1.2.1损失函数:度量模型一次的好坏
1.2.2风险函数(期望损失):度量平均意义下模型预测的好坏
1.3算法
2.过拟合与模型选择
过拟合是学习时选择的模型包含的参数过多,导致这一模型对已知数据预测的很好,但对 于位置数据预测很差的现象
3.正则化与交叉验证
正则化是结构风险最小化策略的实现,在经验风险上加一个正则化项或惩罚项
3.1正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大
4.交叉验证
另一种常用的模型选择方法就是交叉验证(cross validation)
4.1样本充足
a.训练集(training set)
b.验证集(validation set):模型的选择
c.测试集(test set):模型的评估
4.2交叉验证(样本不足)
重复使用数据,切分为训练集和测试集
a. 简单交叉验证:随机分为训练集和测试集
b. S折交叉验证(应用最多)
1.随机将数据分为S个互不相交的大小相同的子集
2.利用S-1个子集的数据训练模型,余下的子集测试模型
3.这一过程的S种可能重复进行,
4.选出S次种平均测试误差最小的模型
c. 留一交叉验证:S=N(N数据容量)
5.泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力
5.1泛化误差:反映了学习方法的泛化能力,学习到模型的期望风险
5.2泛化误差上界
学习方法的泛化能力分析往往是通过烟酒繁华乌哈的概率上界进行的,简称泛化误差 上界。比较两种学习方法的泛化误差上界的大小来比较优劣
6.生成模型与判别模型
监督学习的
7.分类问题
监督学习的核心问题,输出变量Y取有限个离散值时,预测问题便成为分类问题
8.回归问题
9.K近邻
对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决方式进行预测
10.朴素贝叶斯法
基于贝叶斯定理与特征条件独立假设的分类方法。
10.1 首先基于特征条件独立假设学习输入/输出的联合概率分布
10.2 然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y
注:后验概率:事情已经发生了,事情发生可能有很多原因,判断事情发生时由哪个 原因引起的概率。
11.朴素贝叶斯法的参数估计
11.1极大似然估计
极大似然估计,通俗理解,就是利用已知的样本结果信息,反推最具有可能(最 大概率)导致这些样本结果出现的模型参考值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即: 模 型已定,参数未知。https://zhuanlan.zhihu.com/p/26614750
11.2贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概 率的计算结果,使分类产生偏差。采用贝叶斯估计可解决这个问题。
12.决策树模型
决策树是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。
步骤:特征选择,决策树的生成,决策树的修剪。
13.决策树特征选择问题
通常使用 信息增益,信息增益比
13.1信息增益
熵(entropy)是标识随机变量不确定性的度量。
条件熵H(Y|X) 表示在已知随机变量X的条件下,随机变量Y的不确定性
当熵和条件熵中的概率由数据估计(特别是极大似然估计),熵与条件熵分别称 为经验熵和条件经验熵
互信息:熵H(Y)与条件熵H(Y|X)之差
13.2信息增益比
信息增益的大小是相对于训练数据集而言的,没有绝对意义,在分类问题困难 时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大,反之偏小, 使用信息增益比(informationgain ratio)可以对这一问题进行校正。
14.决策树的生成
14.1 ID3算法
ID3算法的核心是在决策树各个节点上用信息增益选择特征,递归构建
a.从根节点开始,对节点计算所有可能特征的信息增益,选择信息增益最大的特征作 为节点的特征,由该特征的不同取值建立子节点
b. 再对子节点递归调用以上方法,直到所有特征的信息增益均很小或者没有特征 可 以选为止。
缺点:ID3只有树的生成,容易产生过拟合
14.2 C4.5
C4.5算法与ID3相似,只是在选择特征的时候,选择信息增益比
14.3 CART分类与回归树 (classificationand regression tree,CART)
CART同样由特征选择、树的生成及剪枝组成,既可用于分类也可用于回归。
步骤:
1.决策树生成:基于训练集生成决策树,生成的树尽量大
2.决策树剪枝:用验证集对生成的树进行剪枝并选择最优子树,用损失函数最小 作为剪枝的标准。
15.决策树的剪枝
决策树生成算法递归产生决策树,这样产生的树往往对训练数据的分类很准确,对未知 的测试数据的分类没有那么准确,容易出现过拟合。解决这个问题的办法是考虑决策树的 复杂度,对决策树进行剪枝。
16.逻辑回归
17.支持向量机(SVM)
SVM是一种二分类模型,它的基本模型是定义在特征空间上间隔最大的线性分类器。
SVM学习的基本想法是求解能够正确划分训练数据集并且几个间隔最大的分离超平面
18.提升方法(boosting)
提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效。在分类问题 中,它通过改变训练样本的权重,学习多个分类器,将这些分类器进行线性组合,提 高分类性能。
基本思想:一个复杂的任务,多个专家的判断综合判断,要比其中任何一个专家 单 独判断的好。俗称“三个臭皮匠顶个诸葛亮”
19.提升方法AdaBoost算法("AdaptiveBoosting"(自适应增强))
它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被 用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。
Adaboost算法步骤:
1.初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N
2.训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去
3.将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。
20.EM算法(Expectation Maximization)期望极大算法
用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。
如果概率模型变量都是观测变量,那么给定数据,直接可以用极大似然估计法;
当模型含有隐变量时,用EM算法。