信息、信息熵、条件熵、互信息,信息增益、信息增益比、基尼系数、相对熵、交叉熵,KL散度,woe,IV值,混淆矩阵(TPR,FPR,F1),ROC,AUC,ks曲线,ks值

信息

根绝香农的信息是用来消除随机不确定性的东西,在机器学习中,假设其输出为Y,对于一个分类yi,我们知道他的占比是P(yi),那么对于任何一个样本,我们瞎蒙一个结果来预测Y=yi,都可以有P(yi)概率蒙对。因此我们可以得到的信息是:

信息熵

信息熵很好李拦截,信息熵首先是个熵,表示一个混乱程度,在信息论中表示信息的随机性和不确定性。所以只需要在给我们提供的信息前面增加一个条件,就可以表示我们拿到的信息的不确定性。

条件熵

我们已经知道了自然条件下的Y的熵,但实际预测时,我们并非是根据已经知道的Y的分布去瞎猜结果,而是知道样本X,X可以对预测Y提供一定的信息,因此就可以得到条件熵:

对于一个特征X,其每个取值x下Y的信息熵乘以x所占的样本比例,既可得特征X的条件熵。

信息增益

直观的说,有了X作为预测y 的辅助,可以增加一些信息量,反过来讲,也就是降低了信息的不确定性,即降低了熵值。因此,可以得到信息增益的概念

互信息

如果不把X看做预测Y的特征,而是把X,Y看做成地位相等事件,可以看到信息增益的概念和互信息是一致的:

信息增益比(增益率)

信息增益对于偏向于值很多的特征,而值很多的特征明显并不能提供泛化的分类能力,因此引入了信息增益比(增益率)的概念。

need-to-insert-img

基尼系数

Y本身的Gini系数为

need-to-insert-img

表征从Y中随机抽取两个样本,两个样本结果不一样的概率。那么如果按照属性X,对Y进行分类以后,属性X的Gini系数为:

need-to-insert-img

其中,Xv代表X属性某一分类内的样本数,Gini(Yv)代表Y在的Xv内的Gini系数。

相对熵

相对熵(relative entropy)是衡量两个密度分布之间的距离的度量,也称为KL 距离,KL散度。它可以:

① 衡量两个概率分布的差异。

② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗,也就是说拟合以后丢失了多少的信息,可以参考前面曲线拟合的思想。

相对熵的定义:

need-to-insert-img

对于一组样本X,Y的联合分布若是p(x,y),边际分布分别为P(x)P(y),则X,Y的互信息是联合分布p(x,y)对P(x)P(y)的相对熵:

need-to-insert-img

交叉熵

交叉熵公式:

need-to-insert-img

对相对熵的公式进行分解可以看到交叉熵和相对熵的关系

need-to-insert-img

WOE

woe(weight of evidence)是表征一个分组内好坏样本区分度的度量

need-to-insert-img

其中yi代表组内好样本数(yes),yT代表全部好样本数,ni表示组内坏样本数(no),nT表示组内坏样本数(no)。可见woe的取值可以是负无穷到正无穷

IV值

由于woe有负值,并不能非常直观的表示分类的预测能力(一个分类的预测能力是负值?),因此用iv值表示一个分类的预测能力

need-to-insert-img

一个特征的整体预测能力为:

need-to-insert-img

iv值得取值范围为0到正无穷

混淆矩阵

在训练完并确定截断点以后,将样本的真实值以及预测值建立一个四格矩阵

need-to-insert-img

其中TP为正确的正预测(true positive),TN正确的负预测(true negative),FP错误的正预测(false positive),FN错误的负预测(false negative)。

查全率(召回率):正确的正预测占所有真实正值的比例TPR = TP/(TP+FN)

查准率:正确的正预测占所有正预测的比例:FPR=TP/(TP+FP)

准确率:accurucy = (TP+TN)/(TP+TN+FP+FN)

查全率和查重率各有所重,如果需要权衡两者重要性,那么用F1

need-to-insert-img

如果查全率和查准率的权重不同。并且

need-to-insert-img

那么加权的F数为

need-to-insert-img

ROC和AUC

在未设定截断点(任务不明确)情况下,我们可以观察这个学习器利用所有可能的截断点(就是所有样本的预测结果)对样本进行分类时的效果,注意要先对所有可能的截断点进行排序,方便对比观察。 

纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率

横轴:FPR=负例分错的概率 = FP/(FP+TN)

如果是随机分类,没有进行任何学习器,FPR=TPR,即正例分对和负例分错概率相同,预测出来的正例负例和正例负例本身的分布是一致的,所以是一条45°的直线。因此,ROC曲线越向上远离这条45°直线,说明用了这个学习器在很小的代价(负例分错为正例,横轴)下达到了相对较大的查全率(TPR)。

作图步骤:

1. 根据学习器的预测结果(注意,是正例的概率值,非0/1变量)对样本进行排序(从大到小)-----这就是截断点依次选取的顺序

2. 按顺序选取截断点,并计算TPR和FPR---也可以只选取n个截断点,分别在1/n,2/n,3/n等位置

3. 连接所有的点(TPR,FPR)即为ROC图

need-to-insert-img

AUC(area under ROC curve),表示ROC曲线下面的面积,是表征学习结果好坏的度量。

KS曲线,KS值 

K-S曲线,又称作洛伦兹曲线。实际上,K-S曲线的数据来源以及本质和ROC曲线是一致的,只是ROC曲线是把真正率TPR和假正率FPR当作横纵轴,而K-S曲线是把真正率TPR和假正率FPR都当作是纵轴,横轴则由选定的阈值来充当。

K-S 曲线就能衍生出KS值,即是两条曲线之间的最大间隔距离。KS值越大表示模型 的区分能力越强。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348

推荐阅读更多精彩内容