跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等,对以上提到的各个评估指标逐一点评,并力图表明:
指标分类
学习分类 | 性能指标 |
---|---|
分类 | Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、 |
回归 | MAE、MSE |
分类
混淆矩阵
1代表正类,0代表负类,Predicted代表预测,Actual代表实际。
Predicted | Predicted | 合计 | |||
---|---|---|---|---|---|
<u>1</u> | <u>0</u> | ||||
Actual | <u>1</u> | D: (TP) -> 2814 | C: (FN) -> 36 | D+C: Actual Positive | |
Actual | <u>0</u> | B: (FP) -> 235 | A: (TN) -> ** 248 ** | A+B: Actual Negative | |
合计 | B+D: Predicted Positive | A+C: Predicted Negative |
- A: (True Negative) 将负类预测为负类数(正确预测负例),<u>(TN | 真负,0->0)</u>
- B: (False Positive) 将负类预测为正类数,<u>(FP | 假正, 0->1)</u> → 误报
- C: (False Negative) 将正类预测为负类数,<u>(FN | 假负, 1->0) </u>→ 漏报
- D: (True Positive) 将正类预测为正类数(正确预测正例),<u>(TP | 真正, 1->1) </u>
- A+B: (Actual Negative) 实际上负例的数量
- C+D: (Actual Positive) 实际上正例的数量
- A+C: (Predicted Negative) 预测的负例数量
- B+D: (Predicted Positive) 预测的正例数量
实际的数据中,客户有两种可能good AND bad,其模型预测同样有两种可能,预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能,第一种True Positive(1->1):实际是Positive,预测成Positive,第二种True Negative(0->0):实际是Negative,预测成Negative;如果不匹配(犯错)则出现两种可能,第一种False Negative(1->0):实际是Positive,预测成Negative,第二种False Positive(0->1):实际是Negative,预测成Positive。
准确(分类)率 VS. 误分类率:
准确(分类)率(accuracy) = 正确预测的正反例数 / 总数
- ACC = (TP+TN) / (TP+TN+FP+FN)
- = (A+D) / (A+B+C+D)
误分类率 = 错误预测的正反例数 / 总数
- 误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
- = (B+C) / (A+B+C+D)
召回率 VS.精确率 → F1 Score
召回率(Recall) = 正确预测到的正例数 / 实际正例总数
- Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
- = D / (C+D)
精确率(Precision) = 正确预测到的正例数 / 预测正例总数
- Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
- = D /(B+D)
F1 Score
F1 Score为精准率和召回率的<u>调和均值</u>
- 2 / F1 = 1 / P + 1 / R
- F1 Score = 2TP / (2TP + FP + FN)
- 准确率(accuracy)和精确率(precision)都高的情况下,F1 Score也会显得很高。
精确率是针对预测结果而言的,表示的是预测为正的样本中有多少是真正的正样本,预测为正就有两种可能,一种是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即 P = TP / (TP+FP)
召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),即 R = TP / (TP+FN)
精确率:预测正例与预测结果的比值,召回率:预测正例与实际样本正例的比值。
ROC 曲线
维基百科定义
In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.
逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类。提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,此处引入ROC,ROC曲线可以用于评价一个分类器好坏。
ROC关注两个指标:
True Positive Rate: TPR = TP / (TP+FN) → 将正例分对的概率
Fales Positive Rate: FPR = FP / (FP+TN) → 将负例错分为正例的概率
在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off。
ROC曲线中的四个点和一条线:
- 点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类;
- 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案;
- 点(0,0):即FPR=TPR=0,FP=TP=0,分类器预测所有的样本都为负样本(negative);
- 点(1,1):分类器实际上预测所有的样本都为正样本。
- 总之:ROC曲线越接近左上角,该分类器的性能越好。
AUC
AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。
总之:AUC值越大的分类器,正确率越高。
- AUC = 1:绝对完美分类器,理想状态下,100%完美识别正负类,不管阈值怎么设定都能得出完美预测,绝大多数预测不存在完美分类器;
- 0.5<AUC<1:优于随机猜测。这个分类器(模型)妥善设定阈值的话,可能有预测价值;
- AUC=0.5:跟随机猜测一样(例:随机丢N次硬币,正反出现的概率为50%),模型没有预测价值;
- AUC<0.5:比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在AUC<0.5的状况。
既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反)
AUC是ROC的积分(曲线下面积)
补充:Gini coefficient
gini系数通常被用来判断收入分配公平程度,具体请参阅wikipedia-基尼系数。
Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即gini coefficient = A面积 / (A面积+B面积) 。
用在评判分类模型的预测效力时,是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。
因此Gini coefficient与AUC可以互相转换:
gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2AUC-1*
回归
平均绝对误差
平均绝对误差MAE(Mean Absolute Error)又被称为 l1l1 范数损失(l1-norm loss):
平均平方误差
平均平方误差 MSE(Mean Squared Error)又被称为 l2l2 范数损失(l2-norm loss):