2018-07-03

[TOC]

极大似然估计的一般思想

极大似然估计(Maximum Likelihood),顾名思义,就是根据似然度(也就是可能性,likelihood)对感兴趣的参数(如正态分布的\mu\sigma,指数分布的\lambda)进行估计。

极大似然估计的原理是一种非常直观的思想,那就是谁的可能性大,谁的脸面就大。

从一个非常简单的例子来看一下极大似然估计的思想:

有A、B两个箱子:A 箱子有99个白球,1个黑球;B箱子有99个黑球,一个白球。假如随机从一个箱子中抽取一个球为白色。

问,这个箱子是A箱子还是B箱子?

人们根据直观印象就会强烈断言这个箱子是A箱子,因为A箱子抽取一个白球的可能性太大了。也就是说,使得事件“取出一个球是白球”发生的可能性更大的“参数估计”是A,而不是B,所以A是极大似然估计。

StatQuest-XII-1

极大似然估计是一种参数估计,它常常用于对样本数据所服从的分布的参数进行估计。

也就是说,对于一个样本数据,为了获悉这个数据的分布情况需要两步:1. 这个分布是什么类型,是正态分布还是指数分布?2. 这个分布的具体参数是什么,如果是正态分布,它的的\mu\sigma是多少,如果是指数分布,那么它的\lambda值是多少?

而极大似然估计就是为了解决第二歩获得分布的参数大小的问题。

极大似然估计的直观例子

有以下例子,如下图13个红色球代表一个小鼠重量的样本,试问这13个小鼠重量数据的具体分布是什么?

首先根据这个数据趋势:大部分数据集中在中央,小部分数据在两端,两端数据虽然不是特别均衡,但是已经非常接近,不太像是一个偏态的分布,所以更倾向于符合正态分布。

而指数分布(数据集中一端,并向另一端递减)或Gamma分布(数据集中在中间,但两端分布不均衡)就不太符合对数据趋势的描述。

StatQuest-XII-2

于是就从正态分布出发,寻找它的关键参数\mu\sigma的估计。

先看一下均值\mu的情况:

根据极大似然估计的一般思想,极大似然估计就是找出使得样本事件发生的可能性最大的\mu值,此值即是\mu的极大似然估计值。

假定先随意指定一个\mu值(\sigma值先随意指定一个),如下图A所示,这个正态分布使得这13个样本数据发生的概率最大是第2个点,其他大部分点的概率都很低,尤其是最右侧的7-8个点的发生概率非常低,整体而言这个\mu值使得样本数据发生的概率并不高。那么目前的这个\mu值的使得样本数据发生的可能性(likelihood)就比较小。

假如增加\mu值,得到如下图B所示的正态分布,则可以看出大部分的点都在正态分布的中间聚集,而少部分在两端出现,此时的\mu值很明显使得样本的13个数据发生时的可能性更大。

StatQuest-XII-3

按照以上思想,变动不同的\mu值,并计算此时的likelihood值,就可得到如下图,于是\mu的估计值就是可能性最大的\mu值。

StatQuest-XII-4

\sigma的情况是类似的:

找到最佳的\mu值后,\sigma值也有多种可能,在尝试不同的\sigma值后,总能找到一个最佳的\sigma值使得此时可能性(likelihood)最大,如下图所示。

于是就获得了此时样本数据的极大似然估计分布。

StatQuest-XII-5

极大似然估计的计算

极大似然估计的一般思想是很直观的,且在上一部分“极大似然估计的直观例子”中,以一个例子直观的说明了正态分布的极大似然估计过程。在那里是通过不断尝试参数值的方法找到的最佳点,那么如果要使用解析方法应该如何计算你呢?

在此之前,首先要明确一个概念:

可能性(likelihood)的意义是什么?同普通意义上的概率有什么区别?

likelihood也是一种概率,但是它一般特指为极大似然估计中选定分布下的样本事件发生的概率。

以正态分布为例,概率是指的一个正态事件在正态分布密度图上的线下面积。

如下图小鼠重量服从正态分布N(32,2.5^2),则小鼠重量在32-34g的概率就是图中红色区域的面积。所以概率是先知道分布,再得出特定条件下的事件概率。

StatQuest-XII-6

但是likelihood是另一层面的概念,它是在并不知道分布的情况下,使用不同分布去适配事件,看此时的事件发生概率。

比如测定了一个小鼠的重量为34g,为了找到这个小鼠的原始分布,那么可以使用正态分布N(32,2.5^2)来描述,得到此时事件“小鼠重量为34g”的概率,也可以使用正态分布N(34,2.5^2)来描述,同样得到此时事件“小鼠重量为34g”的概率,等等,而这些概率就是likelihood。也就是说likelihood是在给定了样本的情况下,使用不同分布描述样本时的样本事情发生的概率大小。而极大似然估计的目的就是在这些所有的likelihood值中找到最大likelihood对应的参数值。

正态分布的极大似估计

设样本服从正态分布N(\mu,\sigma^2),样本容量为n,则似然函数为这n个样本同时发生的概率:
L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2}
于是只要求解满足L(\mu,\sigma^2)的最大值的\mu\sigma即可,为了便于计算,两端取对数:
lnL(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2
求导:
\begin{equation} \left\{ \begin{array}{lrc} \frac{\partial lnL(\mu,\sigma^2)}{\partial \mu}=\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\,u) \quad\quad &=0\\ \frac{\partial lnL(\mu,\sigma^2)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2&=0 \end{array} \right. \end{equation}
于是:
\begin{equation} \left\{ \begin{array}{lrc} \hat{\mu}=\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i \\ \hat{\sigma^2}=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \end{array} \right. \end{equation}

专题以往文章

  1. StatQuest生物统计学专题 - 基础概念
  2. StatQuest生物统计学专题 - p值
  3. StatQuest生物统计学专题 - 生物重复和技术重复
  4. StatQuest生物统计学专题 - RPKM,FPKM,TPM
  5. StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法
  6. StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法
  7. StatQuest生物统计学 - Independent Filtering
  8. StatQuest生物统计学 - FDR及Benjamini-Hochberg方法
  9. StatQuest生物统计学 - 拟合基础
  10. StatQuest生物统计学 - 线性拟合的R2和p值
  11. StatQuest生物统计学专题 - 分位数及其应用

参考资料

StatQuest课程:https://statquest.org/video-index/

极大似然估计详解:https://blog.csdn.net/zengxiantao1994/article/details/72787849


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容