混淆矩阵
positive,negative 是指预测的结果是正例还是反例
true,false是指预测的正确与否
TP:正样本预测正确
TN:负样本预测正确
FP:正样本预测错误
FN:负样本预测错误
准确率(Accuracy)
查全率和查准率都是从正样本出发来说,
查准率的分母是 预测的所有positivie
查全率是分母是 真实正样本总数
查准率(Precision)
查全率(Recall)
P-R曲线
以查全率和查准率为坐标
F1-score
精准率和召回率的调和平均数
β是度量查全率对查准率的相对重要性,大于1查全率有更大影响,小于1查准率更重要。
1/Fβ=1/(1+β2)*(1/P+β2/R)
对数损失函数(log-loss)
若输出不再是0、1,而是实数值,即属于每个类别的概率,那么可以使用log-loss
AUC和ROC
AUC是曲线下的面积,面积越大越好
ROC是这条红色曲线
横轴是假正率FPR(负样本中预测正确的)
纵轴是真正率TPR(正样本中预测正确的)
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
FPR和TPR为何同增
对于分类器来说,如果阈值设置的比较严格,那么预测的positive会同时变少,即TP和FP会下降。相反如果阈值设置比较松,那么预测的positive会变少,即TP和FP会增加。(B战一起啃西瓜书)
为什么面积越大越好
TPR和FPR同时增长时,FPR增长越慢越好。
在纵坐标取值相同时候,绿色线的FPR要大于蓝色线。所以绿色线的模型效果不好。
KS曲线
KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。
好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
该曲线和ROC曲线的关系十分密切,都用到了FPR(假正率)和TPR(真正率)这两个指标。
ROC曲线用FPR作为横轴,TPR作为纵轴,采用描点法绘制,图中总共是一条线;
而KS曲线的横轴则是不同的概率判断阈值,图中一共有两条线,分别代表了FPR值和TPR值,示意图如下所示:
(很多学习期是为测试样本产生一个实值或者概率预测,然后将这个预测值与一个分类阈值进行比较,大于阈值为正类,否则为反类)
ks值 含义
0.3 模型预测性较好
0,2~0.3 模型可用
0~0.2 模型预测能力较差
< 0 模型错误
RMSE (平方根误差)
回归模型中最常用的评价模型便是 RMSE(root mean square error,平方根误差),其又被称为 RMSD(root mean square deviation),其定义如下: