GBDT和XGboost本质上都是前向分布求和算法,如果是回归问题,那么loss常用的是平方差,如果是分类问题,loss常用的是最大似然估计或者交叉熵,求和算法的含义是,整个预测函数可以通过多个若分类器组合而成,这里有几个要点需要关注,第一,在构建树的过程中,每一步分裂点的选择,目标都是促进使loss下降最大,第二,初始情况下,和函数只有一个初始的分类器本身,因此,找到使loss最小的预测值即为初始值,回归问题在使用平方差时,该值即为均值,分类问题使用交叉熵作为loss时,初始值为概率的大的类别对应的概率值,第三,当一棵树构建完成时,叶子节点的值即为该棵树对应函数的输出,可通过分别对每个叶子节点对应的特征空间求loss的最小值获取,第四,每棵树采用拟合梯度的方式进行生长的原因是,整个分类器是通过不断添加弱分类器求得的,每个弱分类器由于拟合的是梯度,因此加上原来的预测函数即相当于使用梯度下降,不断逼近loss极小值,
gbdt xgboost的一点思考
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...