朴素贝叶斯

朴素贝叶斯属于生成方法。朴素体现在样本独立同分布及特征属性条件独立。朴素贝叶斯很直观，计算量不大，在很多领域有广泛的应用

生成方法：直接找出特征输出 $Y$ 和特征 $X$ 的联合分布 $P(X,Y)$ ，然后根据条件概率公式 $P(Y|X) = \frac{P(X,Y)}{P(X)}$ 得出结果，eg：NB、GMM、马尔可夫随机场。
判别方法：直接学习出特征输出 $Y$ 和特征 $X$ 之间的关系，要么是决策函数 $Y = f(X)$ ，要么是条件分布 $P(Y|X)$ 。eg：线性回归、NN、决策树、LR，CRF、SVM等；

事实上，概率模型的训练过程就是参数估计的过程，对于参数估计：

频率学派：认为参数虽然未知，但却是客观存在的固定值，因此可通过优化似然函数等准则来确定参数值，eg：Maximum Likelhood Estimation（MLE）；
贝叶斯学派：认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

贝叶斯学派的思想可以概括为先验概率+数据=后验概率。
条件独立公式，如果X和Y相互独立：
$P(X,Y) = P(X)P(Y)$ 条件概率公式： $P(Y|X) = \frac{P(X,Y)}{P(X)}$ 和 $P(X|Y) = \frac{P(X,Y)}{P(Y)}$ ，则 $P(Y|X) = \frac{P(Y)P(X|Y)}{P(X)}$ 全概率公式: $P(X) = \sum_kP(X|Y=Y_k)P(Y_k)，其中\sum_kP(Y_k) = 1$
从上面的公式很容易得出贝叶斯公式： $P(Y_k|X) = \frac{P(Y)P(X|Y)}{ \sum_kP(X|Y=Y_k)P(Y_k)}$

1. 朴素贝叶斯模型

假如我们的分类模型样本是： $(x_1^{(1)},x_2^{(1)},...,x_n^{(1)},y_1),(x_1^{(2)},x_2^{(2)},...,x_n^{(2)},y_2),...,(x_1^{(m)},x_2^{(m)},...,x_n^{(m)},y_m)$
即我们有 $m$ 个样本，每个样本有 $n$ 个特征，特征输出有 $K$ 个类别，定义为 $C_1,C_2,...,C_K$ 。

从样本我们可以学习得到朴素贝叶斯的先验分布 $P(Y=C_k),(𝑘=1,2,...𝐾)$ ,接着学习到条件概率分布 $P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...,X_n=x_n|Y=C_k)$ ,然后就可以用贝叶斯公式得到 $X$ 和 $Y$ 的联合分布 $P(X,Y)$ 了。联合分布 $P(X,Y)$ 定义为： $P(X,Y=C_k) = P(Y=C_k)P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...,X_n=x_n|Y=C_k)$ 从上面的式子可以看出 $P(Y=C_k)$ 比较容易通过最大似然法求出，得到的 $P(Y=C_k)$ 就是类别 $C_k$ 在训练集里面出现的频率。但是 $P(X=x|Y=C_k)$ 很难求出，这是一个超级复杂的有n个维度的条件分布。朴素贝叶斯模型在这里做了一个大胆的假设，即X的n个维度之间相互独立，这样就可以得出: $P(X_1=x_1,X_2=x_2,...,X_n=x_n|Y=C_k) = P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k)$
从上式可以看出，这个很难的条件分布大大的简化了，但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办？如果真是非常不独立的话，那就尽量不要使用朴素贝叶斯模型了，考虑使用其他的分类方法比较好。但是一般情况下，样本的特征之间独立这个条件的确是弱成立的，尤其是数据量非常大的时候。虽然我们牺牲了准确性，但是得到的好处是模型的条件分布的计算大大简化了，这就是贝叶斯模型的选择。

对于测试样本，既然是贝叶斯模型，当然是后验概率最大化来判断分类了。我们只要计算出所有的K个条件概率𝑃(𝑌=𝐶𝑘|𝑋=𝑋(𝑡𝑒𝑠𝑡))，然后找出最大的条件概率对应的类别，这就是朴素贝叶斯的预测了。

2. 朴素贝叶斯的推断过程

我们预测的类别 $𝐶_{𝑟𝑒𝑠𝑢𝑙𝑡}$ 是使 $P(Y=C_k|X=X^{(test)})$ 最大化的类别，数学表达式为：
$𝐶_{𝑟𝑒𝑠𝑢𝑙𝑡} = argmax_{C_k}P(Y=C_k|X=X^{(test)}) = argmax_{C_k}\frac{P(X=X^{(test)}|Y=C_k)P(Y=C_k)}{P(X=X^{(test)})}$
由于对于所有的类别，上式的分母是一样的，因此，预测公式可以简化为：
$𝐶_{𝑟𝑒𝑠𝑢𝑙𝑡} = argmax_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)$
接着我们利用朴素贝叶斯的独立性假设，就可以得到通常意义上的朴素贝叶斯推断公式:
$𝐶_{𝑟𝑒𝑠𝑢𝑙𝑡} = argmax_{C_k}P(Y=C_k)\prod_{j=1}^nP(X=X^{(test)}|Y=C_k)$

3. 朴素贝叶斯的参数估计

在上一节中，我们知道只要求出 $P(Y=C_k)$ 和 $P(X=X^{(test)}|Y=C_k), (𝑗=1,2,...𝑛)$ ，我们通过比较就可以得到朴素贝叶斯的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率。

对于 $P(Y=C_k)$ ，比较简单，通过极大似然估计我们很容易得到 $P(Y=C_k)$ 为样本类别 $C_k$ 出现的频率，即样本类别 $C_k$ 出现的次数𝑚𝑘除以样本总数m。

对于 $P(X=X^{(test)}|Y=C_k), (𝑗=1,2,...𝑛)$ ，这个取决于我们的先验条件：

如果 $X_j$ 是离散的值，那么我们可以假设 $X_j$ 符合多项式分布，这样得到 $P(X=X^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中，特征 $X_j^{(test)}$ 出现的频率。即： $P(X=X^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$ ，其中 $m_k$ 为样本类别 $C_k$ 总的特征计数，而 $m_{kj^{test}}$ 为类别为 $C_k$ 的样本中，第 $j$ 维特征 $X_j^{(test)}$ 出现的计数。
某些时候，可能某些类别在样本中没有出现，这样可能导致 $P(X=X^{(test)}|Y=C_k)$ 为0，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，即此时有： $P(X=X^{(test)}|Y=C_k) = \frac{m_{kj^{test}}+ \lambda}{m_k+O_j\lambda}$ ，其中 $\lambda$ 为一个大于0的常数，常常取为1。 $O_j$ 为第 $j$ 个特征的取值个数。
如果 $X_j$ 是非常稀疏的离散值，即各个特征出现概率很低，这时我们可以假设 $X_j$ 符合伯努利分布，即特征 $X_j$ 出现记为1，不出现记为0。即只要 $X_j$ 出现即可，我们不关注 $X_j$ 的次数。这样得到 $P(X=X^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中， $X_j^{(test)}$ 出现的频率。此时有： $P(X=X^{(test)}|Y=C_k) = P(X=1|Y=C_k)X_j^{(test)} + (1-P(X=1|Y=C_k))(1-X_j^{(test)})$ ，其中， $X_j^{(test)}$ 取值为0和1。
如果我们我们的 $X_j$ 是连续值，我们通常取 $X_j$ 的先验概率为正态分布，即在样本类别 $C_k$ 中， $X_j$ 的值符合正态分布。这样 $P(X=X^{(test)}|Y=C_k)$ 的概率分布是： $P(X=X^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\delta_k^2}}exp(-\frac{(X_j^{(test)}-u_k)^2}{2\delta_k^2})$ ，
其中 $u_k$ 和 $\delta_k^2$ 是正态分布的期望和方差，可以通过极大似然估计求得。 $u_k$ 为在样本类别𝐶𝑘中，所有 $X_j$ 的平均值。 $\delta_k^2$ 为在样本类别 $C_k$ 中，所有 $X_j$ 的方差。对于一个连续的样本值，带入正态分布的公式，就可以求出概率分布了。

从上面的计算可以看出，NB没有复杂的求导和矩阵运算，因此效率很高。

总结：
朴素贝叶斯的主要优点有：

算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可！）
分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。

朴素贝叶斯的主要缺点有：

假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
对输入数据的表达形式很敏感。

4. 朴素贝叶斯实战

sklearn 中有3种不同类型的朴素贝叶斯，对应上节提到的三种条件概率求法：

高斯分布型：用于classification问题，假定属性/特征服从正态分布的。
多项式型：用于离散值模型里。比如文本分类问题里面我们提到过，我们不光看词语是否在文本中出现，也得看出现次数。如果总词数为n，出现词数为m的话，有点像掷骰子n次出现m次这个词的场景。
伯努利型：最后得到的特征只有0(没出现)和1(出现过)。

我们使用 iris 数据集进行分类

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
from sklearn import datasets
iris = datasets.load_iris()
gnb = GaussianNB()
scores = cross_val_score(gnb, iris.data, iris.target, cv=10)
print("Accuracy:%.3f"%scores.mean())
"""
Accuracy:0.953
"""

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,907评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,987评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,298评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,586评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,633评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,488评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,275评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,176评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,619评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,819评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,932评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,655评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,265评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,871评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,994评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,095评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,884评论 2赞 354

朴素贝叶斯

1. 朴素贝叶斯模型

2. 朴素贝叶斯的推断过程

3. 朴素贝叶斯的参数估计

4. 朴素贝叶斯实战

推荐阅读更多精彩内容