AdaBoost算法(R语言)

原文链接:AdaBoost算法(R语言)

微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings


Boost算法是根据Valiant提出的PAC学习模型衍生得到,是一种可以自适应的改变训练样本的分布,从而使得基分类器聚焦在特殊样本的迭代方法。从基本的Boost算法原理,发展了很多不同的提升算法,如AdaBoost,Gradient Boosting等,本文着重介绍AdaBoost算法。

AdaBoost算法

与Bagging算法(R语言)不同的是,AdaBoost给每一个训练样本赋予一个权值,并且可以在每次提升后,自动调整权值。在从原始数据集抽取自助样本集时,权值可以影响抽样分布。并且此算法对每个基分类器进行加权,而不是使用投票的方式得到最终结果。

算法流程

step1    N=原数据集大小;

             k=提升轮数;

             w={所有样本初始权值1/N};

step2    for i=1 to k{   

            根据w生成大小为N的自助样本集D[i];   

            D[i]上训练一个基分类器C[i];   

            C[i]对所有原始样本进行分类;   

            增加错误分类样本权值,减小争取分    类样本权值,得到新的w;}

step3    根据权重聚合每轮得到的C[i],得到最终组合分类器;

不同提升算法的差别主要在于:(1)每轮提升后如何修改样本权值;(2)如何聚合基分类器得到最终分类器。Gradient Boosting算法是通过在迭代时,使损失函数在梯度方向上下降,来保证最好的效果。

R语言实现

adabag包中的boosting()函数可以实现AdaBoost算法,此函数中选取的基分类器为分类树。选取线性分类器与性能评价(R语言)中的数据来进行AdaBoost算法的实例演示,并展示了基分类器个数与误差变化关系图。

导入包与数据,以7:3比例将数据分为训练集与测试集。

library(adabag)

library(ggplot2)

target.url <- 'https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data'

data <- read.csv(target.url,header = F)

#divide data into training and test sets

set.seed(1500)

index <- sample(nrow(data),0.7*nrow(data))

train <- data[index,]

test <- data[-index,]

用boosting()函数对训练集进行训练。首先定义基分类器个数为1,通过循环依次增加基分类器个数,直至达到20。基分类器个数通过boosting()中的mfinal参数进行设置。

#AdaBoost algorithm with different numbers of classifiers

error <- as.numeric()

for(i in 1:20){

  data.adaboost <- boosting(V61~., data=train, mfinal=i)

  data.pred <- predict.boosting(data.adaboost,newdata = test)

  error[i] <- data.pred$error

}

对于预测后的结果data.pred,输入data.pred$confusion可以看到预测值与真实结果的混淆矩阵,输入data.pred$error可以看到预测误差。下面,用ggplot2画出误差随基分类器个数变化图像。

error <- as.data.frame(error)

p <- ggplot(error,aes(x=1:20,y=error))+

  geom_line(colour="red", linetype="dashed",size = 1)+

  geom_point(size=3, shape=18)+

  ylim(0.13,0.45) +

  xlab("the number of basic classifiers")+

  theme_bw()+

  theme(panel.grid = element_blank())+

  theme(axis.title = element_text(face = "bold"))

p

图像结果为:


可以看出,随着基分类器增加,误差虽有波动,但有减小趋势,逐渐趋向于0.22左右。

优缺点

1,AdaBoost充分考虑的每个分类器的权重。

2,Boosting通常用于弱学习,即没有分离白噪声的能力。

3,由于倾向于那些被错误分类的样本,Boost技术容易受过拟合影响。

4,训练比较耗时。


推荐文章:

用机器学习更快了解用户(翻译)

k折交叉验证(R语言)

聚类(二):k-means算法(R&python)

小案例(一):商业街抽奖

小案例(二):面包是不是变轻了

小案例(三):调查问卷

小案例(四):销售额下滑

微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings

扫描二维码,关注我们。

如需转载,请在开篇显著位置注明作者和出处,并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容