贝叶斯方法与其中的思想

content

连续性随机变量的分布以及概率密度

似然函数

贝叶斯方法

参考资料(强烈推荐最后一个)


连续性随机变量的分布以及概率密度

连续性随机变量的分布不能像离散型的分布那样去描述。因为这种变量的取值充满一个区间,如果取一个点问他的概率,只能是0。
刻画连续性随机变量的概率分布的一个方法是使用概率密度函数

  • 定义:设连续型随机变量X有概率分布函数F(x),则F(x)的导数f(x) = F‘(x) 称为X的概率密度函数。

概率密度函数就是来描述连续性随机变量的概率分布的。

  • 理解:在连续性随机变量中去一个点x,事件{x < X ≤ x + h}的概率为F(x + h) - F(x)。因此[F(x + h) - F(x)] / h 为在x附近h这个长度上单位长度所占有的概率。令h趋近于0,则[F(x + h) - F(x)] / h的极限f(x) = F‘(x)为x点处单位长的概率。

似然函数

似然函数的定义,它是给定联合样本值x下关于(未知)参数θ 的函数:L(θ | x) = f(x | θ)
这里的x是指联合样本随机变量X取到的值,即X = x;
这里的θ是指未知参数,它属于参数空间;
这里的f(x | θ)是一个密度函数,特别地,它表示(给定)θ下关于联合样本值x的联合密度函数。
简单来说,似然函数是关于θ的函数(通过各种情况的可能性,猜参数)。密度函数是关于x的函数(通过参数,推测各种情况的可能性)。
所以上边等式的等号=理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

总结:概率密度表达给定θ下样本随机向量X = x的可能性,而似然表达了给定样本X = x下参数θ1(相对于另外的参数θ2)为真实值的可能性。


贝叶斯方法 —— 先验与似然共舞

P(B|A) = P(AB) / P(A)

举例:纠正拼写,详细例子见参考资料平凡而又神奇的贝叶斯方法
如果一个人在打字时输入了thew,显然这是一个错误的单词,但是实际上他想输入的是the还是thaw或者是其他的呢?这里就引入了纠正拼写问题。
我们需要得到的结果可以表示为P(我们猜测他想输入的 | 输入的是thew)
设我们猜测他想输入的为h1, h2... 统称为h
设他实际输入的是D
则问题转化为P(h | D)
使用贝叶斯公式得到P(h | D) = P(h) * P(D | h) / P(D)
也就是P(h | D) ∝ P(h) * P(D | h)
P(h)是什么: 它是在所有的词汇表中输入h代表的这个单词的可能性,也就是h代表的这个单词的先验概率
P(D | h)是什么: 回去看看上边介绍的似然函数,是不是有些眼熟。可以这么理解,我想要的是更好地满足给定的D的情况下的h,这就是似然

如果不使用贝叶斯呢?

一个最常见的替代方案就是,选择离 thew 的编辑距离最近的。然而 the 和 thaw 离 thew 的编辑距离都是 1 。这可咋办捏?你说,不慌,那还是好办。我们就看到底哪个更可能被错打为 thew 就是了。我们注意到字母 e 和字母 w 在键盘上离得很紧,无名指一抽筋就不小心多打出一个 w 来,the 就变成 thew 了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点,因为 e 和 a 离得较远而且使用的指头相差一个指头(一个是中指一个是小指,不像 e 和 w 使用的指头靠在一块——神经科学的证据表明紧邻的身体设施之间容易串位)。OK,很好,因为你现在已经是在用最大似然方法了,或者直白一点,你就是在计算那个使得 P(D | h) 最大的 h 。
——平凡而又神奇的贝叶斯方法

贝叶斯就是先验乘似然,既然似然已经可以做到了,为什么还要多加一个先验呢。一方面当似然不能做出有有效判断的时候,先验可以提供另一种判断方式,例如词语纠错中可以通过哪个词更常见这个先验来进行判断。另一方面,即便一个猜测与数据非常符合,也并不代表这个猜测就是更好的猜测,因为这个猜测本身的可能性也许就非常低。

例如:-1 3 7 11 你说是等差数列更有可能呢?还是 -X^3 / 11 + 9/11*X^2 + 23/11 每项把前项作为 X 带入后计算得到的数列?此外曲线拟合也是,平面上 N 个点总是可以用 N-1 阶多项式来完全拟合,当 N 个点近似但不精确共线的时候,用 N-1 阶多项式来拟合能够精确通过每一个点,然而用直线来做拟合/线性回归的时候却会使得某些点不能位于直线上。
——平凡而又神奇的贝叶斯方法

所以到底哪个好呢?多项式?还是直线?一般地说肯定是越低阶的多项式越靠谱,可以理解为低阶多项式更常见,也就是其先验概率更大。当然不是随意的低阶都可以,同样要满足其似然,因此这就是贝叶斯将先验和似然相乘的原因。
如果使用一个高阶多项式完全拟合分布,甚至连噪声都进行了拟合,它确实是最大似然的选择,但是它真的好吗?是不是过拟合了?因此P(D | h) 大不代表你的 h (猜测)就是更好的 h,还要看 P(h) 是怎样的。

来比较哪个模型最为靠谱。前面提到,光靠 P(D | h) (即“似然”)是不够的,有时候还需要引入 P(h) 这个先验概率。奥卡姆剃刀就是说 P(h) 较大的模型有较大的优势,而最大似然则是说最符合观测数据的(即 P(D | h) 最大的)最有优势。整个模型比较就是这两方力量的拉锯。我们不妨再举一个简单的例子来说明这一精神:你随便找枚硬币,掷一下,观察一下结果。好,你观察到的结果要么是“正”,要么是“反”(不,不是少林足球那枚硬币:P ),不妨假设你观察到的是“正”。现在你要去根据这个观测数据推断这枚硬币掷出“正”的概率是多大。根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是 1 ,因为这个才是能最大化 P(D | h) 的那个猜测。然而每个人都会大摇其头——很显然,你随机摸出一枚硬币这枚硬币居然没有反面的概率是“不存在的”,我们对一枚随机硬币是否一枚有偏硬币,偏了多少,是有着一个先验的认识的,这个认识就是绝大多数硬币都是基本公平的,偏得越多的硬币越少见(可以用一个 beta 分布来表达这一先验概率)。将这个先验正态分布 p(θ) (其中 θ 表示硬币掷出正面的比例,小写的 p 代表这是概率密度函数)结合到我们的问题中,我们便不是去最大化 P(D | h) ,而是去最大化 P(D | θ) * p(θ) ,显然 θ = 1 是不行的,因为 P(θ=1) 为 0 ,导致整个乘积也为 0 。实际上,只要对这个式子求一个导数就可以得到最值点。
——平凡而又神奇的贝叶斯方法


参考资料:
概率论与数理统计 陈希孺
如何理解似然函数 https://www.zhihu.com/question/54082000
如何通俗地理解概率论中的「极大似然估计法」?https://www.zhihu.com/question/24124998/answer/242682386
平凡而又神奇的贝叶斯方法http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容