转载前言
本科的时候对极大似然估计这个名词搞得云里雾里,虽然会解题,但是总是不知道为何要这么做,生活中会遇到吗?
今天看到一篇文章很好的解释了极大似然估计这个名词,我放在下面。看完这篇文章,我觉得likelihood极大似然这个抽象的名词不如翻译成白话,最有可能估计。但是这到底是什么意思呢。比如,我们扔硬币,重复了N多次发现正反面的出现的概率并不是1:1,而是0.6:0.4,并不符合常识,在这种情况下,我们就会像 估计这个硬币有问题吧,极有可能它的形状或者其他原因导致了他正反面出现的概率并不相等,却是0.6:0.4。这个估计就叫极大似然估计的结果,而我愿意称之为极有可能估计。当然这是我们凭借直觉和常识的出的结论,而极大似然估计则是用数学证明了这个直觉上的结论,也就是用数学的方法找出最有可能的对硬币正反面分布不均的一个解释。
以下全文转载自知乎专栏,大家可以去看看,https://zhuanlan.zhihu.com/p/36824006
1 引入
机器学习中,经常会遇到极大似然估计 (Maximum Likelihood Estimation, MLE) 这个名词,它的含义是什么?它能够解决什么问题?我们该如何理解并使用它?本篇就对此进行详细的阐述和回答。
举一个最简单直观的例子,假设投掷硬币,我们每次投掷的结果只有两种:一正一反,古往今来,无数的实验和直觉告诉我们,投硬币这件事情正反两面的概率就是五五分,即正面概率 0.5,反面概率也是 0.5。
然而,我们怎么知道概率是 0.5 的呢?我们凭什么说就是 0.5,不可以是 0.55 或者 0.48 呢?因为有很多人做过这个实验,投多次硬币,比如投100次,大体上正反两面的次数总是都差不多,因此,我们就 估计 这个事情(投掷为正面)发生的概率为 0.5。
注意,上述的这个思维推理的过程很直觉化,我们人类很多时候对某件事情的判断其实就是这样:多次经历某件事情,比如买水果,我们每次都在看水果的外观来判断该水果是否新鲜可口,久而久之,我们就会发现,拍着清脆欲裂的西瓜有更大的概率会香甜可口,这其实也就是机器学习的基本世界观:从经验到规律。那么换成计算机解决,就是 数据 -> 规则 (Data -> Rule)。
2 极大似然估计的概念
说了这么多,那么极大似然估计到底是什么呢?再来看看我们刚刚说的抛硬币的例子,其实我们并不知道一枚硬币抛出之后正面朝上的客观概率是多少,因为毕竟我们不是上帝,但是我们还是很想知道这个概率的大小,我们唯一的手段就是,做实验,从实验结果的数据中发现这个事件其中的规律。比如,我们抛掷 100 次,发现正面有 52 次,反面有 48 次。此时,这个结果就给我们判断正面的概率提供了一种依据,现在可能有很多人会立刻说:“我知道了,根据这次实验的结果,正面的概率应该是 0.52 !”说的没错,这个论断的思维过程就是概率理论中我们最常看到的一个词 :“估计”。
但是,我们是如何估计的?直觉上,100 次中有 52 次正面,因此我们估计正面概率为 0.52,这似乎很简单直观。但是如果从纯粹的数学理论角度去思考,我们应当给出一个完美的解释。为了能够解释好这种估计的方法,数学家提出了极大似然估计。
极大似然估计的哲学内涵就是:我们对某个事件发生的概率未知,但我们做了一些实验,有过一些对这个事件的经历(经验),那么我们认为,这个事件的概率应该是能够与我们做的实验结果最吻合,当然,前提是我们做的实验次数应当足够多。如果只做一次实验,显然我们就会估计概率为 0 或 1 了。
3 计算
这部分图片太多,转载不方便。。。就直接去看原文吧