分类评价指标accuracy、precision、recall、F1-score、ROC、AUC、PR-AUC

混合矩阵.png

有了accuracy还要计算ROC，是因为在实际的分类样本中，往往会出现样本偏差的情况，假如一个样本集中，正例、负例样本各占10%、90%，这种情况下，即使把正例和负例样本全部预测为负例，accuracy = 90%，准确率依然很高，所以accuracy在这种情况下不能正确反映分类情况
坐标轴

X轴叫做False Positive Rate(FPR)，表示负样例被预测为正例的比率(0-1)，也叫做误纳率；
Y轴叫做True Positive Rate(TPR)，表示正样例被预测为正例的比率(0-1)，1-TPR叫做误拒率。
坐标图上四个点(0, 0)、(0, 1)、(1, 0)、(1, 1)
(0, 0)，即FPR = 0，TPR = 0，正例样本和负例样本全部被预测为负例，原因是阈值太高；
(0, 1)，即FPR = 0，TPR = 1，正例样本全部被预测为正例，负例样本全部被预测为负例，是最理想的分类情况；
(1, 0)，即FPR = 1，TPR = 0，正例样本全部被预测为负例，负例样本全部被预测为正例，是最差的情况；
(1, 1)，即FPR = 1，TPR = 1，正例样本和负例样本全部被预测为正例，原因是阈值太低。
绘制ROC曲线，通过选取不同的阈值计算响应的(FPR, TPR)的值，每一对值在坐标上都是一个点，把这些不同的点连接起来就是ROC曲线。可以知道，阈值选取的越多，分布越均匀，对应的ROC曲线越平滑。最理想的阈值对应于ROC曲线离坐标(0, 1)最近的点。

由于ROC在很多情况下不能说明哪个分类器更好，而AUC是一个数值，反映的ROC曲线的面积，数值越大，对应的分类器越好。

参考：

最后编辑于：2019.06.19 10:32:35