从朴素贝叶斯到贝叶斯网络

从朴素贝叶斯到贝叶斯网络

这一段在苦读西瓜书,看到了贝叶斯分类(第七章)后多有感触。作者比较菜,所以总结分析之处的可能多有不当,希望大家可以指出

简介

一说到贝叶斯,第一个想到的就是Bayesian Law:P(A|B)=\frac{P(A)P(B|A)}{P(B)} ,而这个公式确实在各个领域都有很好的应用,也包括贝叶斯分类器中。

贝叶斯分类器非常的特殊,他将特征值和分类值的“地位”看成了等同的,即分类或者其中一个特征值都可以成为最后推断的值。如果让我用一句话来总结一下贝叶斯分类器:贝叶斯分类器就是不同复杂程度的图,如朴素贝叶斯的简单的树(树也是图的一种),到贝叶斯网络的有向无环图(DAG)。可能乍看这句话有点不知所云,不要着急,听我慢慢道来

一个非常重要的公式

定义贝叶斯分类器的有向图为B=<G,\theta> ,属性以及分类值为节点,属性间的关系为边,父节点为该节点的依赖。其中G代表了图的结构,\theta 代表了参数,包含了每个属性的条件概率表(CPT),我将在后面解释

而对于这个图,其总有联合概率分布(#):
P_B(c,x_1, x_2, ... x_d)=P_B(c|\pi_c)\prod_{i=1}^{d}{P_B(x_i|\pi_i)}=P_B(c|\pi_c)\prod_{i=1}^{d}{P_B(\theta_{x_i}|\pi_i)}

其中x_i指的是样本x中的第i个特征,\theta_{x_i}是指第i个特征(或分类值)的条件概率表,\pi_i是指的第i个特征的依赖特征,可以理解为该节点的父节点

朴素贝叶斯

朴素贝叶斯之所以叫Naïve 是因为他有一个不切合实际的前提:各个特征之间相互独立。学过马原的都知道,马克思主义世界观强调的一点就是联系的普遍性,所以几乎不可能存在一个特征和其他特征完全独立。但既然是贝叶斯分类器中的最简单的,可以先认为这个前提是正确的。而且在某些领域,如文字过滤,还是可以用的。既然有了这样一个大前提,那么(#)要改成什么样子呢?

先说朴素贝叶斯的图吧,所有特征的父节点(依赖)只有类别(图1),也就是说特征只和该样本所属的类别有关。那么\pi_i就成了c了,c是这个样本的类别。而分类值c本身没有依赖,所以P_B(c|\pi_c)=P(c)。最后(#)式就可以改成:
P_B(c,x_1, x_2, ... x_d)=P(c)\prod_{i=1}^{d}{P(x_i|c))}
而如果想用朴素贝叶斯实现分类,想得到的其实是P(c|x_1,x_2,...)=\frac{P_B(c,x_1, x_2, ... x_d)}{P(x_1,x_2,...)}分母和类别c无关,只是一个归一化量,可以不用看。所以属于哪一类就是看哪一个c的式计算结果最大。

图一.PNG

从上面的图,可以看到朴素贝叶斯的图其实就是一个树,而CPT其实就是每个特征x_i在给定类别c的概率,并且把所有的可能都写在一个表里面。而(#)式更可以看作“CPT相乘”。而CPT的获取是通过训练集计数实现或者通过“懒惰学习”。

半朴素贝叶斯

由于特征之间相互独立这个前提条件太扯了,所以人们提出了半朴素贝叶斯,即特征可以和其中一个特征相关。最有代表性的是:

  • “超父”类型的SPODE 和 AODE
  • TAN

SPODE & AODE

SPODE是选取其中一个特征作为其他人共同的爹,如图二

图二.PNG

而超父的选取通常使用交叉验证的方法。此时,(#)式也就变成了

P_B(c,x_1, x_2, ... x_d)=P(c)\prod_{i=1}^{d}{P(x_i|c,parent))}

更多的,用于分类比大小的P(c|x_1,x_2,...)仍然和上式成正比。

AODE其实就是把每个特征都当一次超父,并求和,具体的公式就不再展示了。

TAN

TAN的思想就不再局限于只有一个爹,而是通过以条件互信息(conditional mutual information)作为图的边的权重,构建一个最大带权生成树,如图三

图三.PNG

贝叶斯网络

上面的贝叶斯分类器最终的目标其实还是实现分类,即比较P(c|x_1,x_2,...)的大小。而到了贝叶斯网络,目标变成了推断。即令Q={Q_1,Q_2...} 表示待查询变量,E=E_1,E_2,...为证据变量,目标是计算后验概率P( Q=\ q | E = e) 。一般使用而我们其实可以通过(#)式得到P(Q_i| Z)的值,Z = Q \cup E /Q_i(先用CPT连乘起来,即算出来所有的联合概率密度,再计算不在Z中的特征的边缘分布以及将Z中的值带入到CPT中查表)。具体的代码实现等有时间再完善。

关于贝叶斯网络的例子,可以看:

https://blog.csdn.net/zdy0_2004/article/details/41096141

总结

从朴素贝叶斯到贝叶斯网络,可以看到前提条件越来越宽松,而图模型也越来越复杂,但不管怎么说,(#)式一直贯穿着贝叶斯分类器的始终。总结的如有问题,欢迎直接提问。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容