XGBoost原理梳理

Content

  1. Introduction
  2. Regularized Learning Objective - 正则化目标方程
  3. Split Finding Algorithm - 节点切分算法
  4. Dealing with Missing value - 缺失值处理
  5. Difference between XGBoost and GBDT - XGBoost和GBDT的区别

1. Introduction

最近引起关注的一个Gradient Boosting算法:xgboost,在计算速度和准确率上,较GBDT有明显的提升。xgboost 的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个c++实现,作者为正在华盛顿大学研究机器学习的大牛陈天奇 。xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。它的处女秀是Kaggle的 希格斯子信号识别竞赛,因为出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注。值得我们在GBDT的基础上对其进一步探索学习。


2. Regularized Learning Objective

机器学习问题的本质是数据分布的模型拟合,用数学语言表达就是目标函数的最优化问题。跟GBDT类似,Xgboost对于给定数据集进行additive trainning,学习K棵树,得到下面的预测函数:
\begin{align} & \hat{y_i} = \phi(x_i) = \sum_{k=1}^{K} f_k(x_i), f_k \in \mathcal{F} \\ & \mathcal{F} = {f(x) = w_{q(x)}}(q : \mathbb{R}^m \rightarrow T, w \in \mathbb{R}^T) \\ & \text{space of regression trees(also known as CART)}\\ & T \leftarrow \text{# of leaves in the tree} \\ & f_k \leftarrow \text{an independent tree structure q and leaf weights w} \end{align}

和决策树不同,每一个回归树的每一个叶节点都包含一个continuous score. 我们用w_i表示第i个叶节点
上述预测函数是如何得到的呢?我们需要分析目标函数,如下:

其中,第一项跟GBDT中是一样的,选定某个损失函数,计算预测值与真实值的偏差,第二项为正则项,传统的GBDT并没有,也是Xgboost改进的地方。我们知道决策树的一个缺点就是易过拟合,需要剪枝操作,这里的正则项起到类似的作用。
第t次迭代,目标函数具体写作:
\mathcal{L}^{(t)} = \sum_{i=1}^{n} l(y_i, \hat{y_i}^{t-1} + f_t(x_i)) + \Omega f(t)
然后,基于前t-1次的预测值yt-1处做二阶的泰勒展开:


而GBDT的这部分则是基于前t-1次的预测值yt-1处做一阶的泰勒展开,这也是Xgboost改进的地方,泰勒二阶近似比一阶近似更接近真实的Loss Fnction,自然优化的更彻底。
接下来分析正则项的形式,如下:

为什么是这样的形式,官网的说明是:
Of course there is more than one way to define the complexity, but this specific one works well in practice.
其中,T为叶子节点的数目,w为叶子节点的value向量。
对树函数f作如下变换:

将正则项的具体形式和变换后的树函数带入目标函数,如下:

统一i,j的求和,如下:

可以看出t轮的L函数是关于w的二次函数,求极值:


3. Split Finding Algorithm - 节点切分算法

我们已经确定了损失函数,以及最优解,接下来我们需要缺点树的结构,即如何选出最优分裂节点。我们可以参照决策树算法:ID3选择信息增益为切分准则,C4.5选择信息增益率为切分准则。XGBoost基本思想是和决策树一致的:贪心法枚举所有节点,计算各个节点分裂前后的信息增益,选出信息增益最大的。下面是XGBoost信息增益的定义:


XGBoost提供了两种切分算法:精确贪心算法(Exact Greedy Algorithm)和近似算法(Approximate Algorithm)

3.1 Exact Greedy Algorithm

Exact Greedy Algorithm

遍历所有特征的所有可能的分割点,计算Gain值,选取最大的 (Feature,label) 去分裂。

为了达到这个目标,split finding算法会在所有特征 (features) 上,枚举所有可能的划分(splits)。为了更高效,该算法必须首先根据特征值对数据进行排序,以有序的方式访问数据来枚举Gain公式中的结构得分 (structure score) 的梯度统计 (gradient statistics)。

3.2 Approximate Algorithm

Approximate Algorithm

对于每个特征,只考察分位点,减少计算复杂度。

该算法会首先根据特征分布的百分位数 (percentiles of feature distribution),提出候选划分点 (candidate splitting points)。接着,该算法将连续型特征映射到由这些候选点划分的分桶(buckets) 中,聚合统计信息,基于该聚合统计找到在 proposal 间的最优解。

  • Global:学习每棵树前,提出候选切分点;
  • Local:每次分裂前,重新提出候选切分点;

近似算法举例:三分位数


近似算法中使用到了分位数,关于分位数的选取,论文提出了一种算法Weighted Quantile Sketch 。XGBoost不是按照样本个数进行分位,而是以二阶导数为权重。

Q:为什么使用hi加权?
A:比较直观的解释是因为目标函数可以化简为如下形式:
\sum_{i=1}^{n} \frac{1}{2}h_i(f_t(x_i) - g_i/h_i)^2 + \Omega(f_t) + constant


4. Dealing with Missing value 对缺失值的处理

缺失值是实际的机器学习项目中不容忽视的问题。自带的工具包帮你解决不是好事,因为默认的处理方式不一定符合你的场景。Xgboost的处理方式是,缺失值数据会被分到左子树和右子树分别计算损失,选择较优的那个。如果训练中没有数据缺失,预测时出现了数据缺失,默认分类到右子树。



5. XGBoost和GBDT的区别

  • GBDT

    GBDT 它的非线性变换比较多,表达能力强,而且不需要做复杂的特征工程和特征变换。
    GBDT 的缺点也很明显,Boost 是一个串行过程,不好并行化,而且计算复杂度高,同时不太适合高维稀疏特征;
    传统 GBDT 在优化时只用到一阶导数信息。

  • XGBoost

    它有以下几个优良的特性:

    1. 显示的把树模型复杂度作为正则项加到优化目标中。
    2. 公式推导中用到了二阶导数,用了二阶泰勒展开。(GBDT 用牛顿法貌似也是二阶信息)
    3. 实现了分裂点寻找近似算法。
    4. 利用了特征的稀疏性。
      5 . 数据事先排序并且以 block 形式存储,有利于并行计算。
    5. 基于分布式通信框架 rabit,可以运行在 MPI 和 yarn 上。(最新已经不基于 rabit 了)
    6. 实现做了面向体系结构的优化,针对 cache 和内存做了性能优化。

Reference

  1. XGBoost: A Scalable Tree Boosting System
  2. Xgboost算法理解
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352