根据李航老师的《统计学习方法》一书整理。
1、提升方法的基本思路
提升方法基于这样一种思路:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。实际上就是“三个臭皮匠顶个诸葛亮”的道理。
接下来介绍两个概念:
强可学习:在概率近似正确(probably approximately correct ,PAC)的学习框架中,一个概念,如果存在一个多项式的学习算法能够学习它,而且正确率很高,那么就称这个概念是强可学习的。
弱可学习:一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。
对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数提升方法都是改变训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。
这样一来,有两个问题需要解决:
(1)在每一轮如何改变训练数据的权值或者概率分布?
(2)如何将弱分类器组合成一个强分类器?
2、AdaBoost算法的思想
说明AdaBoost算法的思想,主要就是回答如何解决上述提出的两个问题。
对于第一个问题,AdaBoost的做法是,提高那些被前一轮弱嗯类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而收到后一轮的弱分类器的更大关注。
对于第二个问题,AdaBoost对弱分类器的组合采取加权多数表决的方法。具体地说,加大分类误差率小的弱分类器的权值,使其在百奥绝种起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。
3、AdaBoost算法步骤:
根据李航老师的书,这里我直接截图,老师对于AdaBoost的步骤整理的非常棒: