机器学习笔记：重拾AUC计算公式

@作者: 机器学习算法 @迪吉老农

AUC这个指标在排序问题里经常用到，之前也有个模糊的印象，就是一个排序正确的比例。

这个模糊印象是，

分母是选两个例子的的方式数
分子是这两个例子的预测顺序正确的次数

但是今天看了一个python的实现，发现不是很能理解里面的公式，于是赶紧查了一下维基百科的定义，

the probability that a classifier will rank a randomly chosen positive instance higher than a randomly chosen negative one (assuming 'positive' ranks higher than 'negative').

上面的意思是，

分母是分别选一个正例，一个负例的方式数
分子是这两个例子的预测顺序正确的次数

也就是去掉两个负例或者两个正例，这两种情况。想来也是，这种数据属于不知道是对还是错，无法标定，不应该放到准确率中计算。

于是自己试着用一个例子来辅助推导一下公式，如下表所示， $y$ 是现实的正负例， $\hat{y}$ 是模型给出的预测的分数，

index	$y$	$\hat{y}$
0	1	0.9
1	0	0.5
2	1	0.8
3	0	0.7
4	1	0.6

我们需要计算
$\text{AUC} = \text{P}(\hat{y}_{1}\ge \hat{y}_{0})$
其中的 $\hat{y}_0$ 和 $\hat{y}_1$ 是随机的一对正负例 $y_0$ 和 $y_1$ 的预测值。

按照定义，分母就是从正例选一个，从负例选一个的方式数，
$\text{denominator}= n_{pos} n_{neg} = 3 \times2 = 6$
分子要看预测的分数，一个直接的想法是去生成一个矩阵，比较预测分数，正例和负例谁大，如下面的表格，

正例	1	3
0	1(`.9>.5`)	1(`.9>.7`)
2	1(`.8>.5`)	1(`.8>.7`)
4	1(`.6>.5`)	0(`.6<.7`)

然后去计算矩阵的sum就是正确排序数
$\text{nominator} = \text{mat.sum()} = 5$
但是这个计算方式有性能问题，类似于冒泡排序的计算量 $O(n^2)$ ；高效一点的实现就是先全排序，复杂度是 $O(n\log(n))$ ，生成一个下面的表中rank值，表明每个值排在第几个位置，

index	$y$	$\hat{y}$	tied_rank
0	1	0.9	5
1	0	0.5	1
2	1	0.8	4
3	0	0.7	3
4	1	0.6	2

注释，这里的tied_rank是指，分数一样的话，几个平分一个rank，比如，

>>> tied_rank([1.0, 0.1, 0.8, 0.7, 0.6])
[5.0, 1.0, 4.0, 3.0, 2.0]
>>> tied_rank([1.0, 0.1, 0.7, 0.7, 0.6])
[5.0, 1.0, 3.5, 3.5, 2.0]

继续说回来，如果一个正例在整体中从低分到高分，排在第 $k$ 个，那么他比 $k-1$ 个数大。不过，里面既有正例也有负例，我们必须知道里面的正例/负例数才行。所以还需要一个只保留正例的计算，如下表。假设他在正例中排第 $k_{pos}$ ，在全体中排第 $k$ ，那么他比 $k-k_{pos}$ 个负例大，也就是我们在分子中，要进行求和的对象。

index	$y$	$\hat{y}$	tied_rank	pos_rank
0	1	0.9	5	3
2	1	0.8	4	2
4	1	0.6	2	1

所以，分子的计算可以写成，
$\sum_{\text{positives}}{(k - k_{pos})} = (5-3) + (4-2) + (2-1) = 5$
上面的公式又可以化简，这是因为 $\sum{k_{pos}}$ 其实是是固定的值，只和正例的数目有关系，
$\sum{k_{pos}} = n_{pos} + (n_{pos}-1) + ...+1 = \frac{n_{pos}(n_{pos}+1)}{2}$
所以最终的公式为

$\text{AUC} = \frac{\sum_{\text{positives}}{k} -\frac{n_{pos}(n_{pos}+1)}{2}}{n_{pos}n_{neg}}$
最后，贴一下网上开源的代码benhamner/Metrics，里面就是这个计算公式。

def auc(actual, posterior):
    """
    Computes the area under the receiver-operater characteristic (AUC)
    This function computes the AUC error metric for binary classification.
    Parameters
    ----------
    actual : list of binary numbers, numpy array
             The ground truth value
    posterior : same type as actual
                Defines a ranking on the binary numbers, from most likely to
                be positive to least likely to be positive.
    Returns
    -------
    score : double
            The mean squared error between actual and posterior
    """
    r = tied_rank(posterior)
    num_positive = len([0 for x in actual if x==1])
    num_negative = len(actual)-num_positive
    sum_positive = sum([r[i] for i in range(len(r)) if actual[i]==1])
    auc = ((sum_positive - num_positive*(num_positive+1)/2.0) /
           (num_negative*num_positive))
    return auc

版权声明

以上文章为本人@迪吉老农原创，首发于简书，文责自负。文中如有引用他人内容的部分（包括文字或图片），均已明文指出，或做出明确的引用标记。如需转载，请联系作者，并取得作者的明示同意。感谢。

最后编辑于：2022.01.11 11:56:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,012评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,628评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,653评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,485评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,574评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,590评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,596评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,340评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,794评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,102评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,276评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,940评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,583评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,201评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,441评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,173评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,136评论 2赞 352

机器学习笔记：重拾AUC计算公式

版权声明

推荐阅读更多精彩内容