信息
根绝香农的信息是用来消除随机不确定性的东西,在机器学习中,假设其输出为Y,对于一个分类yi,我们知道他的占比是P(yi),那么对于任何一个样本,我们瞎蒙一个结果来预测Y=yi,都可以有P(yi)概率蒙对。因此我们可以得到的信息是:
信息熵
信息熵很好李拦截,信息熵首先是个熵,表示一个混乱程度,在信息论中表示信息的随机性和不确定性。所以只需要在给我们提供的信息前面增加一个条件,就可以表示我们拿到的信息的不确定性。
条件熵
我们已经知道了自然条件下的Y的熵,但实际预测时,我们并非是根据已经知道的Y的分布去瞎猜结果,而是知道样本X,X可以对预测Y提供一定的信息,因此就可以得到条件熵:
对于一个特征X,其每个取值x下Y的信息熵乘以x所占的样本比例,既可得特征X的条件熵。
信息增益
直观的说,有了X作为预测y 的辅助,可以增加一些信息量,反过来讲,也就是降低了信息的不确定性,即降低了熵值。因此,可以得到信息增益的概念
互信息
如果不把X看做预测Y的特征,而是把X,Y看做成地位相等事件,可以看到信息增益的概念和互信息是一致的:
信息增益比(增益率)
信息增益对于偏向于值很多的特征,而值很多的特征明显并不能提供泛化的分类能力,因此引入了信息增益比(增益率)的概念。
need-to-insert-img
基尼系数
Y本身的Gini系数为
need-to-insert-img
表征从Y中随机抽取两个样本,两个样本结果不一样的概率。那么如果按照属性X,对Y进行分类以后,属性X的Gini系数为:
need-to-insert-img
其中,Xv代表X属性某一分类内的样本数,Gini(Yv)代表Y在的Xv内的Gini系数。
相对熵
相对熵(relative entropy)是衡量两个密度分布之间的距离的度量,也称为KL 距离,KL散度。它可以:
① 衡量两个概率分布的差异。
② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗,也就是说拟合以后丢失了多少的信息,可以参考前面曲线拟合的思想。
相对熵的定义:
need-to-insert-img
对于一组样本X,Y的联合分布若是p(x,y),边际分布分别为P(x)P(y),则X,Y的互信息是联合分布p(x,y)对P(x)P(y)的相对熵:
need-to-insert-img
交叉熵
交叉熵公式:
need-to-insert-img
对相对熵的公式进行分解可以看到交叉熵和相对熵的关系
need-to-insert-img
WOE
woe(weight of evidence)是表征一个分组内好坏样本区分度的度量
need-to-insert-img
其中yi代表组内好样本数(yes),yT代表全部好样本数,ni表示组内坏样本数(no),nT表示组内坏样本数(no)。可见woe的取值可以是负无穷到正无穷
IV值
由于woe有负值,并不能非常直观的表示分类的预测能力(一个分类的预测能力是负值?),因此用iv值表示一个分类的预测能力
need-to-insert-img
一个特征的整体预测能力为:
need-to-insert-img
iv值得取值范围为0到正无穷
混淆矩阵
在训练完并确定截断点以后,将样本的真实值以及预测值建立一个四格矩阵
need-to-insert-img
其中TP为正确的正预测(true positive),TN正确的负预测(true negative),FP错误的正预测(false positive),FN错误的负预测(false negative)。
查全率(召回率):正确的正预测占所有真实正值的比例TPR = TP/(TP+FN)
查准率:正确的正预测占所有正预测的比例:FPR=TP/(TP+FP)
准确率:accurucy = (TP+TN)/(TP+TN+FP+FN)
查全率和查重率各有所重,如果需要权衡两者重要性,那么用F1
need-to-insert-img
如果查全率和查准率的权重不同。并且
need-to-insert-img
那么加权的F数为
need-to-insert-img
ROC和AUC
在未设定截断点(任务不明确)情况下,我们可以观察这个学习器利用所有可能的截断点(就是所有样本的预测结果)对样本进行分类时的效果,注意要先对所有可能的截断点进行排序,方便对比观察。
纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)
如果是随机分类,没有进行任何学习器,FPR=TPR,即正例分对和负例分错概率相同,预测出来的正例负例和正例负例本身的分布是一致的,所以是一条45°的直线。因此,ROC曲线越向上远离这条45°直线,说明用了这个学习器在很小的代价(负例分错为正例,横轴)下达到了相对较大的查全率(TPR)。
作图步骤:
1. 根据学习器的预测结果(注意,是正例的概率值,非0/1变量)对样本进行排序(从大到小)-----这就是截断点依次选取的顺序
2. 按顺序选取截断点,并计算TPR和FPR---也可以只选取n个截断点,分别在1/n,2/n,3/n等位置
3. 连接所有的点(TPR,FPR)即为ROC图
need-to-insert-img
AUC(area under ROC curve),表示ROC曲线下面的面积,是表征学习结果好坏的度量。
KS曲线,KS值
K-S曲线,又称作洛伦兹曲线。实际上,K-S曲线的数据来源以及本质和ROC曲线是一致的,只是ROC曲线是把真正率TPR和假正率FPR当作横纵轴,而K-S曲线是把真正率TPR和假正率FPR都当作是纵轴,横轴则由选定的阈值来充当。
从K-S 曲线就能衍生出KS值,即是两条曲线之间的最大间隔距离。KS值越大表示模型 的区分能力越强。