Day9~10 第四章朴素贝叶斯

1 朴素贝叶斯法的学习与分类

朴素贝叶斯的思想是：对于给定的一个训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。由于朴素贝叶斯实际上是学习生成数据的机制，因此属于生成模型。

1.1 基本方法

设输入空间 $\mathcal{X}\subseteq \mathbb{R}^n$ ，输出空间为类标记集合 $\mathcal{Y}=\{c_1,c_2,\dots,c_K\}$ 。输入为特征向量 $x\in\mathcal{X}$ ，输出为类标记 $y\in\mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $P(X,Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots ,(x_N,y_N)\}$ 由 $P(X,Y)$ 独立同分布生成。
先验概率分布 $P(Y=c_k),\quad k = 1,2,\dots K$ 条件概率分布 $P(X=x|Y=c_k)$ 由于朴素贝叶斯对条件概率分布做了条件相互独立的假设。因此有 $P(X=x|Y=c_k) = \prod\limits_{j=1}^n P\big(X^{(j)} = x^{(j)}|Y=c_k\big)$
后验概率计算根据贝叶斯定理进行 (具体过程可参考李航《统计学习方法（第二版）)： $y=\arg\max\limits_{c_k} P(Y=c_k)\prod\limits_{j} P\big(X^{(j)} = x^{(j)}|Y=c_k\big)$

对于条件相互独立的假设太强，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进，例如为了计算量不至于太大，我们假定每个属性只依赖另外的一个属性。解决特征之间的相关性，我们还可以使用主成分分析（PCA）的方法，去除特征相关性，再进行朴素贝叶斯计算。

1.2 后验概率最大化的含义

朴素贝叶斯将实例分到后验概率最大的类中等价于经验风险最小化。选则 0-1 损失函数： $L(Y,f(X)) = \left\{\begin{align} 1,&\ \ Y\neq f(X)\\ 0,&\ \ Y=f(X)\\ \end{align}\right.$ 其中 $f(X)$ 是分类决策函数。结合联合分布的条件期望，故经验风险函数为 $R_{\text{exp}}(f)=E[L(Y,f(x))]=E_X\sum\limits_{k=1}^K [L(c_k,f(x))]P(c_k|X)$ 为使经验风险最小化，只需对 $X=x$ 逐个极小化，由此可得： $\begin{align}L(Y,f(X)) &= \arg\min\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^K [L(c_k,y)]P(c_k|X=x)\\ &=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^K P(y\neq c_k|X=x)\\ &=\arg\min\limits_{y\in\mathcal{Y}}\big(1- P(y= c_k|X=x)\big)\\ &=\arg\max\limits_{y\in\mathcal{Y}}P(y= c_k|X=x)\\ \end{align}$ 这样一来，根据期望风险最小化准则就得到了后验概率最大化准则： $f(x)=\arg\max\limits_{c_k}P(c_k|X=x)$ 即朴素贝叶斯采用的原理

1.3 对看到的一个有关朴素贝叶斯假设分析的思考

看到一篇文章说朴素贝叶斯的假设有两条：
1、自变量之间独立
2、连续型自变量关于因变量服从正态分布
关键在于第二条，这说明了朴素贝叶斯对自变量不服从正态分布的数据集拟合效果极差。
但是在我学习以及推导过程中并未发现该要求，于是我就尝试复刻了他的分析过程，代码是用数学软件 matlab 编写的：

（1）生成数据集并绘制散点图

% 随机生成一个 [0,1] x [0,1] 上的 xy<0.25 类别为 1；yx>0.25 类别为 2 的数据集
x = (randi(101,500,1)-1)./100;
y = (randi(101,500,1)-1)./100;
z = zeros(500,1);

for i = 1:500
    if y(i)>0.2*sin(20*x(i))+0.5
        z(i) = 1;
    else
        z(i) = 2;
    end
end

% 绘制原数据散点图 标签为1为红色 标签为2为蓝色
figure
hold on
ezplot('y=0.2*sin(20*x)+0.5');
title('{y}={0.2}{\times}{sin}({20}{\times}{x})+{0.5}')
set(gca,'Xlim',[-0.05,1.05]);
set(gca,'Ylim',[-0.05,1.05]);
gscatter(x,y,z,'br','o');
hold off

原始数据散点图

（2）采用朴素贝叶斯法分类

nbGau = fitcnb([x,y], z);
nbGauResubErr = resubLoss(nbGau);

cp = cvpartition(z,'KFold',10);
nbGauCV = crossval(nbGau, 'CVPartition',cp);
nbGauCVErr = kfoldLoss(nbGauCV)

figure
hold on
ezplot('y=0.2*sin(20*x)+0.5');
title('{y}={0.2}{\times}{sin}({20}{\times}{x})+{0.5}')
set(gca,'Xlim',[-0.05,1.05]);
set(gca,'Ylim',[-0.05,1.05]);
labels = predict(nbGau, [x y]);
gscatter(x,y,labels,'br','o');

朴素贝叶斯分类结果

可以看出和原文说的一样分类效果确实不是很好，但是在编写的过程中我已经发现问题了：这里的朴素贝叶斯是采用的先验为高斯分布(正态分布)的朴素贝叶斯，这样自然的对自变量不服从正态分布的数据集拟合效果会不好！
那既然发现问题了，有没有办法解决呢？那当然是有的！常见的朴素贝叶斯有以下几种：
1. GaussianNB
先验为高斯分布(正态分布)的朴素贝叶斯，适用于样本特征的分布大部分为连续性，其假定各个特征 $x_i$ 在各个类别 $y$ 下服从正态分布。
2. MutinomiaINB
先验为多项式分布的朴素贝叶斯。描述各类样本出现的次数或者出现次数的比例，常用于文本分类，特征表示的是次数。适用于样本分布为多元离散值。
3. BernuoliNB
先验为伯努利分布的朴素贝叶斯。假设特征为先验概率为二元伯努利分布。适用于样本特征是二元离散值或者稀疏的多元离散值。

不难发现，我们其实可以尝试使用先验为多项式分布的 MutinomiaINB 来进行学习,代码也只需设置 fitcnb 函数的先验分布参数：

nbGau = fitcnb([x,y], z,'DistributionNames','mvmn');  %修改先验分布参数为 'mvmn' 
nbGauResubErr = resubLoss(nbGau);

cp = cvpartition(z,'KFold',10);
nbGauCV = crossval(nbGau, 'CVPartition',cp);
nbGauCVErr = kfoldLoss(nbGauCV)

figure
hold on
ezplot('y=0.2*sin(20*x)+0.5');
title('{y}={0.2}{\times}{sin}({20}{\times}{x})+{0.5}')
set(gca,'Xlim',[-0.05,1.05]);
set(gca,'Ylim',[-0.05,1.05]);
labels = predict(nbGau, [x y]);
gscatter(x,y,labels,'br','o');

3.jpg

可以看到学习结果比之前明显好了不少！这提醒我们，在使用朴素贝叶斯模型进行学习的时候要考虑特征向量符合什么样的先验分布，这样才能具有更好的分类效果。这一点不仅仅可以运用在朴素贝叶斯上，对于其他的模型也是同理，只有考虑好了特征的分布性质，才能采用更加适合的模型进行学习！

2 朴素贝叶斯的参数估计以及算法

在朴素贝叶斯法中，学习意味着估计先验概率 $P(Y=c_k)$ 以及条件概率 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。可以应用极大似然估计法或者贝叶斯估计法估计相应的概率。贝叶斯估计相较于极大似然估计的区别在于贝叶斯估计在随机变量各个取值的频数上赋予一个正数 $\lambda>0$ ，当 $\lambda = 0$ 时即为极大似然估计。
下面给出朴素贝叶斯的学习与分类算法。
算法 4.1 (朴素贝叶斯算法)
输入：训练数据集 $T=\{ x_1,x_2,\dots, x_N\}$ ，其中 $x_i = ( x_i^{( 1 )} , x_i^{(2)} , ⋯ , x_i^{(k)})^T$ ， $i=1,2,\dots,N$ ； $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)}\in\{a_{j1},a_{j2},\dots,a_{jS_j}\}$ ， $j=1,2,\dots,n$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $l=1,2,\dots,S_j$ ， $y_i\in\{c_1,c_2,\dots,c_K\}$ ；实例 $x$ ；
输出：对实例 $x$ 的分类；
(1) 计算先验概率以及条件概率 $P_{\color{red}{\lambda}}(Y=c_k)=\frac{\sum\limits_{i=1}^N I(y_i=c_k)\color{red}{+\lambda}}{N\color{red}{+K\lambda}},\quad k=1,2,\dots,K.$ $P_{\color{red}{\lambda}}(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^N I(x^{(j)}_i=a_{jl}|y_i=c_k)\color{red}{+\lambda}}{\sum\limits_{i=1}^N I(y_i=c_k)\color{red}{+S_j\lambda}},$ $j=1,2,\dots,n;\quad l=1,2,\dots,S_j;\quad k=1,2,\dots,K.$
(2) 对于给定的实例 $x=(x^{(1)},x^{(2)},\dots,x^{(n)})^T$ ，计算 $P_{\color{red}{\lambda}}(Y=c_k)\prod\limits_{j=1}^n P_{\color{red}{\lambda}}(X^{(j)}=x^{(j)}|Y=c_k),\quad k=1,2,\dots,K$
(3) 确定实例 $x$ 的类 $y=\arg\max\limits_{c_k} P_{\color{red}{\lambda}}(Y=c_k)\prod\limits_{j} P_{\color{red}{\lambda}}\big(X^{(j)} = x^{(j)}|Y=c_k\big)$

其中，去掉标红的符号后的算法即为采用极大似然估计，保留标红符号后的算法则为采用贝叶斯估计。
贝叶斯估计是为了解决极大似然估计中要估计的概率值为 0 的情况。常取 $\lambda = 1$ ，这时称为拉普拉斯平滑。

最后编辑于：2023.02.25 15:35:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,904评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,581评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,527评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,463评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,546评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,572评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,582评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,330评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,776评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,087评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,257评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,923评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,571评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,192评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,436评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,145评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,127评论 2赞 352

Day9~10 第四章 朴素贝叶斯