熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。
信息熵的计算公式:
条件熵:
当一个特征固定以后, 结果的不确定性即为条件熵:
信息增益:
原熵-条件熵, 即为这个已确定变量给系统带来的稳定性增益:
H(c) 是分类结果的gain
当然特征带来的稳定性增益越大越好。但是有个问题, 如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多,很容易造成过拟合
信息增益比:
信息增益的一个大问题就是偏向选择分支多的属性导致overfitting,信息增益比公式对value值多的情况进行的惩罚处理(尽管如此,还是要剪枝)
H(c) 是分类类别的熵, 类别越多,熵倾向于越大;同理, H(X)是变量X的Gain, 变量X的取值越多,H(X)的值也会越大, 惩罚除数越大:
在决策树算法中,ID3使用信息增益,c4.5使用信息增益比。
Gini系数:
CART中采用了Gini系数来构造二叉决策树, 二分类问题中,近似于熵之半,但计算要简单一些:
D表示全样本, pi表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低,最稳定。
类似的, Gini增益:
参考:http://blog.csdn.net/bitcarmanlee/article/details/51488204