机器学习性能评估指标汇总

跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等,对以上提到的各个评估指标逐一点评,并力图表明:

指标分类

学习分类 性能指标
分类 Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、
回归 MAE、MSE

分类

混淆矩阵

1代表正类,0代表负类,Predicted代表预测,Actual代表实际。

Predicted Predicted 合计
<u>1</u> <u>0</u>
Actual <u>1</u> D: (TP) -> 2814 C: (FN) -> 36 D+C: Actual Positive
Actual <u>0</u> B: (FP) -> 235 A: (TN) -> ** 248 ** A+B: Actual Negative
合计 B+D: Predicted Positive A+C: Predicted Negative
  • A: (True Negative) 将负类预测为负类数(正确预测负例),<u>(TN | 真负,0->0)</u>
  • B: (False Positive) 将负类预测为正类数,<u>(FP | 假正, 0->1)</u> → 误报
  • C: (False Negative) 将正类预测为负类数,<u>(FN | 假负, 1->0) </u>→ 漏报
  • D: (True Positive) 将正类预测为正类数(正确预测正例),<u>(TP | 真正, 1->1) </u>
  • A+B: (Actual Negative) 实际上负例的数量
  • C+D: (Actual Positive) 实际上正例的数量
  • A+C: (Predicted Negative) 预测的负例数量
  • B+D: (Predicted Positive) 预测的正例数量

实际的数据中,客户有两种可能good AND bad,其模型预测同样有两种可能,预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能,第一种True Positive(1->1):实际是Positive,预测成Positive,第二种True Negative(0->0):实际是Negative,预测成Negative;如果不匹配(犯错)则出现两种可能,第一种False Negative(1->0):实际是Positive,预测成Negative,第二种False Positive(0->1):实际是Negative,预测成Positive。


准确(分类)率 VS. 误分类率:

准确(分类)率(accuracy) = 正确预测的正反例数 / 总数

  • ACC = (TP+TN) / (TP+TN+FP+FN)
  • = (A+D) / (A+B+C+D)

误分类率 = 错误预测的正反例数 / 总数

  • 误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
  • = (B+C) / (A+B+C+D)

召回率 VS.精确率 → F1 Score

召回率(Recall) = 正确预测到的正例数 / 实际正例总数

  • Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
  • = D / (C+D)

精确率(Precision) = 正确预测到的正例数 / 预测正例总数

  • Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
  • = D /(B+D)

F1 Score

F1 Score为精准率和召回率的<u>调和均值</u>

  • 2 / F1 = 1 / P + 1 / R
  • F1 Score = 2TP / (2TP + FP + FN)
  • 准确率(accuracy)和精确率(precision)都高的情况下,F1 Score也会显得很高。

精确率是针对预测结果而言的,表示的是预测为正的样本中有多少是真正的正样本,预测为正就有两种可能,一种是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即 P = TP / (TP+FP)

召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),即 R = TP / (TP+FN)

精确率:预测正例与预测结果的比值,召回率:预测正例与实际样本正例的比值。


ROC 曲线

维基百科定义

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类。提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,此处引入ROC,ROC曲线可以用于评价一个分类器好坏。

ROC关注两个指标:

True Positive Rate: TPR = TP / (TP+FN) → 将正例分对的概率
Fales Positive Rate: FPR = FP / (FP+TN) → 将负例错分为正例的概率

在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off。

ROC curve

ROC曲线中的四个点和一条线:

  • 点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类;
  • 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案;
  • 点(0,0):即FPR=TPR=0,FP=TP=0,分类器预测所有的样本都为负样本(negative);
  • 点(1,1):分类器实际上预测所有的样本都为正样本。
  • 总之:ROC曲线越接近左上角,该分类器的性能越好。

AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。
总之:AUC值越大的分类器,正确率越高。

  • AUC = 1:绝对完美分类器,理想状态下,100%完美识别正负类,不管阈值怎么设定都能得出完美预测,绝大多数预测不存在完美分类器;
  • 0.5<AUC<1:优于随机猜测。这个分类器(模型)妥善设定阈值的话,可能有预测价值;
  • AUC=0.5:跟随机猜测一样(例:随机丢N次硬币,正反出现的概率为50%),模型没有预测价值;
  • AUC<0.5:比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在AUC<0.5的状况。
AUC

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反)

AUC是ROC的积分(曲线下面积)

补充:Gini coefficient

gini系数通常被用来判断收入分配公平程度,具体请参阅wikipedia-基尼系数

Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即gini coefficient = A面积 / (A面积+B面积) 。

用在评判分类模型的预测效力时,是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。

因此Gini coefficient与AUC可以互相转换:

gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2AUC-1*

回归

平均绝对误差

平均绝对误差MAE(Mean Absolute Error)又被称为 l1l1 范数损失(l1-norm loss):

平均平方误差

平均平方误差 MSE(Mean Squared Error)又被称为 l2l2 范数损失(l2-norm loss):

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容