机器学习面试之GBDT

(参考:https://www.cnblogs.com/ScorpioLu/p/8296994.html)

(参考:https://www.cnblogs.com/ModifyRong/p/7744987.html)

(参考:https://blog.csdn.net/google19890102/article/details/51746402)

一、集成学习方法

(1)Bagging

对训练样本重采样来得到不同的训练样本集,在这些训练样本集上分别训练学习器,最终合并。Bagging方法中,最重要的算法是随机森林算法。

Bagging

(2)Boosting

学习器之间存在先后顺序,每个样本有权重,初始化时,每个样本的权重是相等的,训练过程中调整正确和错误样本的权重。同时,每个学习器的权重也是不一样的。Boosting中,最重要的方法包括AdaBoost和GBDT。

Boosting

二、Gradient Boosting

(1)在函数空间优化

损失函数:

首先设置初始值:

以函数F为整体,对于每一个样本Xi,对存在对应的函数值F(Xi)。与梯度下降法更新过程一致,经过M代,得到的最优函数为:

(2)Gradient Boosting

由上图可知,Boosting的学习结果是b个学习器的和:

具体过程如下:

三、Gradient Boosting Decision Tree (1st博客)

在梯度提升决策树中,基学习器是分类回归树CART,使用的是CART中的回归树。

(1)分类回归树CART

对于m个训练样本的回归问题,训练样本为:

初始时,CART树中只包含根节点:

然后计算该节点的方差的m倍:

此时,从n维特征中选择第j维特征作为划分标准,分为左子树和右子树,其中样本个数分别为m1和m2:

为了寻找最好的划分,计算左右子树的方差和:

并且选择方差和最小的划分为最终的划分,依次这样划分下去:

注:关于划分,计算过程可以进一步优化:

划分前
划分后

第一项相同,最好的划分对应于两节点的值的和的最大值:

(2)GBDT——二分类

在梯度提升决策树GBDT中,通过定义不同的损失函数,可以完成不同的学习任务,二分类是机器学习中一类比较重要的分类算法,在二分类中,其损失函数为:

套用上面的GB框架,得到下述二分类的GBDT算法:

在构建每一棵CART回归树的过程中,每一个样本的预测值应该与y-(y bar)尽可能一致,y-(y bar)计算过程如下:

在y-(y bar,通常可以称为残差,更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中,计算该叶子结点的预测值:

由Newton-Raphson迭代公式可得:

代码参考:https://github.com/guestwalk/kaggle-2014-criteo

Python版本:https://github.com/liudragonfly/GBDT

三、Gradient Boosting Decision Tree (2nd博客)

(1)GBDT选择特征

GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree,也可以是其他的弱分类器,前提是低方差和高偏差,框架服从Boosting框架即可。

CART的特征选择过程就是李航第五章中对CART Tree的描述:

(2)GBDT构建特征

GBDT能构建特征并不准确,其本身是不能产生特征的,但是可以利用GBDT产生特征的组合。

由于LR不能解决非线性问题,为了避免人为构建特征,使用GBDT构造特征

(3)GBDT用于分类

GBDT无论用于分类还是回归一直都是使用CART回归树,核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。

GBDT多分类算法流程

第一步,针对样本X每个可能的类都训练一个CART。例如,目标有三类,即K = 3,而样本 x 属于第二类,可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树,第一棵树输入为(x, 0),第二棵树输入为(x, 1),第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归,使用softmax来产生概率,例如属于类别1的概率为:

并且可以针对各类别求出残差:

然后开始第二轮训练,对每一类的输入分别为(x, y11)、(x, y22)和(x, y33),继续训练三棵树。一直迭代M轮,有如下三个式子:

当训练完毕后,新来一个样本x1,我们需要预测该样本的类别,便可以由以上三个式子产生三个值,然后利用softmax函数求概率。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容