最大似然估计+最大后验估计+LR

前言

现代机器学习的终极问题都会转化为解目标函数的优化问题,MLE和MAP是生成这个函数的很基本的思想,因此我们对二者的认知是非常重要的。最近有时间, 我查了些资料, 加深了一下对这俩的理解.

统计学习要素

再次读到统计学习方法[1]第一章, 终于开始理解1.3节的内容. 统计学习方法都是由模型, 策略和算法构成的. 

(1)模型: 这里的模型, 其实指的是要学习的条件概率分布(例如逻辑斯蒂分布, 正态分布)或者决策函数. 所有模型的集合就是统计学习的模型假设空间.

(2)策略: 有了模型的假设空间后, 策略指的就是按照什么样的准则学习或者选择最优的模型, 学习的目标在于从假设空间中选择最优模型.

监督学习问题是在假设空间中选择模型f作为决策函数, 对于给定的输入X, 预测值f(X)对应的真实值Y, 用损失函数来定义这个输出与真实值之间的偏差程度, 计做L(Y, f(X)). 常用的损失函数: 0-1, 平方, 绝对损失, 合页损失, 对数损失. 对于所有的样本, 损失函数得到的所有偏差值的均值是该损失函数的期望值, 成为风险函数或者是期望损失.

所以, 学习的目标是使得这个风险最小化. 而关于这个风险最小化, 就有了两个不同的策略, 分别是经验风险最小化(ERM)以及结构风险最小化(SRM). 

经验风险最小化的目标是, 经验风险最小的模型是最优的, 也就是说, 预测值越近似于样本的模型是最优的, 当样本足够多, 包含的信息足够多的时候, 经验风险最小化有很好的学习效果, 但是样本容量小的时候, 容易过拟合.

结构风险最小化的目标是为了防止过拟合, 通常在经验风险的基础上加上正则化项或者惩罚项.

今天本文的主角, 最大似然估计(MLE)与最大后验概率估计(MAP)分别是经验风险最小化与结构风险最小化典型栗子.

(3)算法, 如何基于样本进行训练, 如何求解全局最优并简单高效等等.

频率学派与贝叶斯派

我们认为, 概率模型的学习过程, 其实就是给定模型的条件下的参数估计过程, 长久以来, 统计学界的两个学派分别提出了各自的解决方案.

频率学派认为, 参数虽然未知, 但是却是客观存在的固定值, 因此可以通过优化似然函数等方法来确定参数值, 这种方法在样本多的时候很吊.

贝叶斯派认为, 参数是没有观测到的随机变量, 它自身也有分布, 可以假定参数服从一个先验分布, 然后基于样本来计算后验分布, 最后通过后验概率的最大化来确定参数自身的分布, 这个方法在先验分布准确的时候效果非常显著, 但是样本增多的时候, 效果就逐渐变差了.

比较认同这篇的说法:

抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

最大似然估计

最大似然估计(Max Likelihood Estimation, MLE)最常见的推导过程如下:

公式一 摘自[2]

之所以放这个推导过程, 是因为这里他的推导非常干净利落, 简单粗暴.最后这一行所优化的函数被称为Negative Log Likelihood (NLL).

此外, 在深度学习任务中, 交叉熵损失函数(cross entropy loss), 本质上也是MLE.平时常见的模型中, 使用MLE作为学习策略的包括:

LR,决策树,EMM,CRF。。。。

LR的推导

这里,我们通过最大似然估计去推导LR的参数估计过程。

首先我们定义一下似然函数,对于每一条样本,其预测正确的概率为:

公式二 似然函数

这里对于每一条样本,符合伯努利实验的假设,上述似然函数可以简化为:

公式三 似然函数简单形式

综合所有的样本:

公式四 似然函数

得到对数似然概率:

公式五 对数似然概率

因此,最大似然概率也就是:

公式六 最大似然

等价于:

公式七 最大似然

这里的似然函数是一个凸函数(证明过程待补充),可以使用梯度下降法进行优化,接下来就是求以下导数:

公式八 求导

求导之前,我们稍微改写以下逻辑斯谛分布, 加上偏置项:

公式九 逻辑斯谛分布

这里省略推导过程,给出结果:

公式十 求导结果

当然,LR的推导也可以走常见的定义损失函数再求导的过程,得到的答案应该是一致的。

最大后验估计

首先回顾一下概率论的两个概念,贝叶斯公式与全概率公式

公式 一 贝叶斯公式


公式二 全概率公式

那什么是先验概率与后验概率?

简单地说。先验概率是由采样观测来的各类别的概率分布。

后验概率是在观测的基础上关于参数的概率分布, 通俗地说是,在事情已经发生的基础上,某个条件的概率。计做

公式三 后验概率

依然上面MLE推导过程的老哥的推导过程:

公式四 最大后验概率的推导

推导过程中第二步到第三步用的是上面的贝叶斯公式进行转换。

从优化公式可以看出来,最后的结果中,包含对数似然函数, 因此,最大后验概率估计的方法通常与最大似然估计一起使用。例如在朴素贝叶斯,隐马尔科夫模型,EM算法中,都同时包含MLE与MAP。


后记

由于自己蠢,没早点找到写markdown的设置,白瞎了在网页上敲了半天的latex,以后再补上MAP的实例推导。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容