最大似然估计+最大后验估计+LR

前言

现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想，因此我们对二者的认知是非常重要的。最近有时间, 我查了些资料, 加深了一下对这俩的理解.

统计学习要素

再次读到统计学习方法[1]第一章, 终于开始理解1.3节的内容. 统计学习方法都是由模型, 策略和算法构成的.

(1)模型: 这里的模型, 其实指的是要学习的条件概率分布(例如逻辑斯蒂分布, 正态分布)或者决策函数. 所有模型的集合就是统计学习的模型假设空间.

(2)策略: 有了模型的假设空间后, 策略指的就是按照什么样的准则学习或者选择最优的模型, 学习的目标在于从假设空间中选择最优模型.

监督学习问题是在假设空间中选择模型f作为决策函数, 对于给定的输入X, 预测值f(X)对应的真实值Y, 用损失函数来定义这个输出与真实值之间的偏差程度, 计做L(Y, f(X)). 常用的损失函数: 0-1, 平方, 绝对损失, 合页损失, 对数损失. 对于所有的样本, 损失函数得到的所有偏差值的均值是该损失函数的期望值, 成为风险函数或者是期望损失.

所以, 学习的目标是使得这个风险最小化. 而关于这个风险最小化, 就有了两个不同的策略, 分别是经验风险最小化(ERM)以及结构风险最小化(SRM).

经验风险最小化的目标是, 经验风险最小的模型是最优的, 也就是说, 预测值越近似于样本的模型是最优的, 当样本足够多, 包含的信息足够多的时候, 经验风险最小化有很好的学习效果, 但是样本容量小的时候, 容易过拟合.

结构风险最小化的目标是为了防止过拟合, 通常在经验风险的基础上加上正则化项或者惩罚项.

今天本文的主角, 最大似然估计(MLE)与最大后验概率估计(MAP)分别是经验风险最小化与结构风险最小化典型栗子.

(3)算法, 如何基于样本进行训练, 如何求解全局最优并简单高效等等.

频率学派与贝叶斯派

我们认为, 概率模型的学习过程, 其实就是给定模型的条件下的参数估计过程, 长久以来, 统计学界的两个学派分别提出了各自的解决方案.

频率学派认为, 参数虽然未知, 但是却是客观存在的固定值, 因此可以通过优化似然函数等方法来确定参数值, 这种方法在样本多的时候很吊.

贝叶斯派认为, 参数是没有观测到的随机变量, 它自身也有分布, 可以假定参数服从一个先验分布, 然后基于样本来计算后验分布, 最后通过后验概率的最大化来确定参数自身的分布, 这个方法在先验分布准确的时候效果非常显著, 但是样本增多的时候, 效果就逐渐变差了.

比较认同这篇的说法:

抽象一点来讲，频率学派和贝叶斯学派对世界的认知有本质不同：频率学派认为世界是确定的，有一个本体，这个本体的真值是不变的，我们的目标就是要找到这个真值或真值所在的范围；而贝叶斯学派认为世界是不确定的，人们对世界先有一个预判，而后通过观测数据对这个预判做调整，我们的目标是要找到最优的描述这个世界的概率分布。

最大似然估计

最大似然估计(Max Likelihood Estimation, MLE)最常见的推导过程如下:

公式一摘自[2]

之所以放这个推导过程, 是因为这里他的推导非常干净利落, 简单粗暴.最后这一行所优化的函数被称为Negative Log Likelihood (NLL).

此外, 在深度学习任务中, 交叉熵损失函数(cross entropy loss), 本质上也是MLE.平时常见的模型中, 使用MLE作为学习策略的包括:

LR，决策树，EMM，CRF。。。。

LR的推导

这里，我们通过最大似然估计去推导LR的参数估计过程。

首先我们定义一下似然函数，对于每一条样本，其预测正确的概率为：

公式二似然函数

这里对于每一条样本，符合伯努利实验的假设，上述似然函数可以简化为：

公式三似然函数简单形式

综合所有的样本：

公式四似然函数

得到对数似然概率：

公式五对数似然概率

因此，最大似然概率也就是：

公式六最大似然

等价于：

公式七最大似然

这里的似然函数是一个凸函数（证明过程待补充），可以使用梯度下降法进行优化，接下来就是求以下导数：

公式八求导

求导之前，我们稍微改写以下逻辑斯谛分布，加上偏置项：

公式九逻辑斯谛分布

这里省略推导过程，给出结果：

公式十求导结果

当然，LR的推导也可以走常见的定义损失函数再求导的过程，得到的答案应该是一致的。

最大后验估计

首先回顾一下概率论的两个概念，贝叶斯公式与全概率公式

公式一贝叶斯公式

公式二全概率公式

那什么是先验概率与后验概率？

简单地说。先验概率是由采样观测来的各类别的概率分布。

后验概率是在观测的基础上关于参数的概率分布，通俗地说是，在事情已经发生的基础上，某个条件的概率。计做

公式三后验概率

依然上面MLE推导过程的老哥的推导过程：

公式四最大后验概率的推导

推导过程中第二步到第三步用的是上面的贝叶斯公式进行转换。

从优化公式可以看出来，最后的结果中，包含对数似然函数，因此，最大后验概率估计的方法通常与最大似然估计一起使用。例如在朴素贝叶斯，隐马尔科夫模型，EM算法中，都同时包含MLE与MAP。

后记

由于自己蠢，没早点找到写markdown的设置，白瞎了在网页上敲了半天的latex，以后再补上MAP的实例推导。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,743评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,296评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,285评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,485评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,581评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,821评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,960评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,719评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,186评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,516评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,650评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,329评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,936评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,757评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,991评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,370评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,527评论 2赞 349