MLE最大似然估计与MAP最大后验估计

1 频率和贝叶斯两大学派的争论

频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

在对事物建模时,用θ表示模型的参数,请注意,机器学习解决问题的本质就是求参数θ。

(1) 频率学派:存在唯一真值θ。举一个简单直观的例子:抛硬币。我们用P(head)来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的bias P(head)=θ。在频率学派来看,θ = 20 / 100 = 0.2,很直观。

当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即θ= 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币θ= 1,出现严重错误。

(2) 贝叶斯学派: θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。

先验,即P(θ),指的是在没有观测到任何数据时对θ的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即P(X|θ),是假设θ已知后我们观察到的数据应该是什么样子的;后验,即P(θ|X),是最终的参数分布。

贝叶斯估计的基础是贝叶斯公式,如下:

贝叶斯公式

同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(head),即P(θ|X),是一个distribution,最大值会介于0.5~1之间,而不是武断的θ=1。

这里有两点值得注意的地方:

随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小。

如果先验是联合分布(uniform distribution),则贝叶斯方法等价于频率方法。因为直观上来讲,先验是联合分布本质上表示对事物没有任何预判。

2 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)

假设数据X1,X2,…,Xn是i.i.d.的一组抽样X=(X1,X2,…,Xn)。其中i.i.d.表示Independent and identical distribution,独立同分布。

极大似然估计原理

那么MLE对θ的估计方法可以如下推导:

最后这一行所优化的函数被称为负对数似然函数(Negative Log Likelihood (NLL)),这个概念和上面的推导是非常重要的!

我们经常在不经意间使用MLE,例如上文中关于频率学派求硬币概率的例子,其方法其实本质是由优化NLL得出。

给定一些数据,求对应的高斯分布时,我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式,其理论依据是优化NLL。

深度学习做分类任务时所用的cross entropy loss,其本质也是MLE。

3 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

Maximum A Posteriori, MAP是贝叶斯学派常用的估计方法!P(θ|x)即后验概率,这就是“最大后验概率估计”名字的由来。

同样的,假设数据X1,X2,…,Xn是i.i.d.的一组抽样,X=(X1,X2,…,Xn) 。那么MAP对θ的估计方法可以如下推导:

其中,第2-3行使用了贝叶斯定理,第3-4行P(X)可以丢掉因为与θ无关。注意-logP(X|θ)其实就是NLL,所以MLE和MAP在优化时的不同就是在于先验项-log P(θ)。好的,那现在我们来研究一下这个先验项,假定先验是一个高斯分布,即

那么,

至此一件神奇的事情发生了 :

在MAP中使用一个高斯分布的先验  等价于 在MLE中采用L2的正则化 。 

再稍微补充几点:

我们不少同学大学里学习概率论时,最主要的还是频率学派的思想,其实贝叶斯学派思想也非常流行,而且实战性很强。

4 参考资料

[1] Bayesian Method Lecture, UT Dallas.

http://www.utdallas.edu/~nrr150130/cs7301/2016fa/lects/Lecture_14_Bayes.pdf

[2] MLE, MAP, Bayes classification Lecture, CMU.

http://www.cs.cmu.edu/~aarti/Class/10701_Spring14/slides/MLE_MAP_Part1.pdf

[3] 频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78999639

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,914评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,935评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,531评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,309评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,381评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,730评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,882评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,643评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,095评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,448评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,566评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,253评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,829评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,715评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,945评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,248评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,440评论 2 348