Sigmoid信念网络|机器学习推导系列（二十八）

一、概述

Sigmoid信念网络（Sigmoid Belief Network，SBN）是一种有向图模型，这里的信念网络指的就是贝叶斯网络，也就是有向图模型，sigmoid指的就是sigmoid函数：

$\sigma (x)=\frac{1}{1+exp(-x)}$

在Sigmoid信念网络中同样有两观测变量和隐变量，不过他们的连接是有向的，并且节点全部服从0-1分布，并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示：

概率图

Sigmoid信念网络最常见的结构时分成许多层的结构。有向图天然地具有比较简单的因子分解，变量之间的关系很清晰，因而Sigmoid信念网络的采样比较简单，从根节点开始采样，由于tail-to-tail的结构，其子节点是相互独立的，最终直至采样到可见层。类似神经网络可以在多于一个隐藏层的情况下可以逼近任意连续函数，Sigmoid信念网络具备逼近任意离散函数的能力。

Sigmoid信念网络的随机变量 $s$ 分为隐变量 $h$ 和观测变量 $v$ ：

$s=\begin{pmatrix} s_{1} & s_{2} & \cdots & s_{p} \end{pmatrix}^{T}\\ h=\begin{pmatrix} h_{1} & h_{2} & \cdots & h_{m} \end{pmatrix}^{T}\\ v=\begin{pmatrix} v_{1} & v_{2} & \cdots & v_{n} \end{pmatrix}^{T}\\ p=m+n$

Sigmoid信念网络中每个变量只受其祖先节点影响，并且取值为 $0$ 或 $1$ ，对于节点 $s_i$ 来说，其取值为 $1$ 的概率为：

$P(s_{i}=1|s_{j}:j< i)=\sigma (\sum_{j<i}w_{ji}s_{j})$

这里的 $s_j$ 表示概率图中 $s_i$ 的祖先节点， $w_{ji}$ 表示参数，注意这里为简便起见没有写出偏置，我们可以认为 $w_{ji}$ 已经包含了偏置了。另外取值为 $0$ 的概率为：

$P(s_{i}=0|s_{j}:j< i)=1-P(s_{i}=1|s_{j}:j< i)\\ =1-\sigma (\sum_{j<i}w_{ji}s_{j})\\ =\sigma (-\sum_{j<i}w_{ji}s_{j})$

这里用到了sigmoid函数的性质：

$\sigma (-x)=1-\sigma (x)$

综合一下上面两个概率值，可以将节点 $s_i$ 的概率写为：

$P(s_{i}|s_{j}:j< i)=\sigma (s_{i}^{*}\sum_{j<i}w_{ji}s_{j}),\; \; 其中s_{i}^{*}=2s_{i}-1$

那么最终 $s$ 的概率就可以写成：

$P(s)=\prod _{i=1}^{p}P(s_{i}|s_{j}:j< i)$

尽管有向图模型相比无向图模型具备一些优势，但是在求解Sigmoid信念网络的后验 $P(h|v)$ 时我们仍然遇到了一些困难，主要原因还是explain away问题，也就是head-to-head结构带来的问题。从概率图中可以看出，由于head-to-head结构的存在，在给定观测变量 $v$ 时，隐变量之间不是相互独立的，因此求解 $P(h|v)$ 是相当困难的。那么能不能应用采样的方法呢？事实上在模型相当复杂的情况下，由于维度过高，采样的方法也是相当困难的。下一节我们就来看一下直接应用极大似然估计的方法会遇到什么问题，或者说看一下极大似然估计与后验有什么样的关系。

二、log似然的梯度与后验的关系

假设数据集为 $V$ ，那么模型的 $log$ 似然为：

$\mathrm{log\mbox{-}likelihood}:\sum _{v\in V}logP(v)$

对于每一个 $P(v)$ ，对一个特定的参数 $w_{nm}$ 求导：

$\frac{\partial logP(v)}{\partial w_{nm}}=\frac{1}{P(v)}\frac{\partial P(v)}{\partial w_{nm}}\\ =\frac{1}{P(v)}\frac{\partial \sum _{h}P(h,v)}{\partial w_{nm}}\\ =\sum _{h}{\color{Red}{\frac{1}{P(v)}}}\frac{\partial P(h,v)}{\partial w_{nm}}\\ =\sum _{h}{\color{Red}{\frac{P(h|v)}{P(h,v)}}}\frac{\partial P(h,v)}{\partial w_{nm}}\\ =\sum _{h}P(h|v){\color{Blue}{\frac{1}{P(s)}\frac{\partial P(s)}{\partial w_{nm}}}}$

对于上面式子中蓝色的部分有：

$\frac{1}{P(s)}\frac{\partial P(s)}{\partial w_{nm}}=\frac{1}{\prod _{i=1}^{p}P(s_{i}|s_{j}:j< i)}\frac{\partial \prod _{i=1}^{p}P(s_{i}|s_{j}:j< i)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m)\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}\frac{\partial P(s_{m}|s_{k}:k< m)\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m){\color{Red}{\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}}}\frac{{\color{Red}{\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}}\partial P(s_{m}|s_{k}:k< m)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m)}\frac{\partial P(s_{m}|s_{k}:k< m)}{\partial w_{nm}}\\ =\frac{1}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\color{Blue}{\frac{\partial \sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\partial w_{nm}}}}\\ =\frac{1}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\color{Blue}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}}}\\ =\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}$

这里蓝色的部分又用到了sigmoid函数的性质：

$\sigma ^{'}(x)=\sigma (x)\sigma (-x)$

到此我们就可以得到 $log$ 似然对一个特定参数 $w_{nm}$ 的梯度：

$\frac{\partial}{\partial w_{nm}}\sum _{v\in V}logP(v)\\ =\sum _{v\in V}\frac{\partial logP(v)}{\partial w_{nm}}\\ =\sum _{v\in V}{\color{Red}{\sum _{h}P(h|v)}}\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}\\ =E_{(h,v)\sim P(h|v),v\sim P_{data}}\left [\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}\right ]$

由上式可以看出 $log$ 似然对一个特定参数 $w_{nm}$ 的梯度是与后验 $P(h|v)$ 相关的，然而从概率图中可以看出，观测变量 $v$ 位于最底层，且位于head-to-head结构中，也就是explain away问题，因此想要精确推断这个后验是相当困难的。Sigmoid信念网络的提出者Neal表示可以尝试MCMC的方法，然而这样的方法仅适合 $s$ 纬度较低的情况下，在高维情况下采样是困难的。

三、醒眠算法

算法

在 $s$ 维度过高的情况下，变量之间相互影响交织在一起，难以分解，可以尝试采用平均场理论来分解后验分布，即 $q(h|v)=\sum _{i=1}^{M}q_{i}$ 依次求解 $q_{1},q_{2},\cdots ,q_{M}$ ，然后应用坐标上升的方法，这个方法我们已经在变分推断那一节讲过了。这里的问题在于对于梯度上升的方法来说，这是一个迭代的过程，而在每次迭代时都要用坐标上升的方法求解后验分布，也就是说又要嵌套一个迭代的过程，因而这种方法的主要问题在于比较耗时。

Neal在1995年提出了一种启发式算法叫做醒眠算法（Wake-Sleep Algorithm），可以近似推断这个后验。他把后验看做一个函数，而非一个分布，理论上神经网络可以近似任意一个连续函数，而sigmoid理论上可以近似任意一个离散函数，因此这属于近似推断的方法，后验分布是学习出来的。醒眠算法如下图所示，除了自上而下的连接（称为Generative Connection）以外，还假设存在自下而上的反向连接（称为Recognization Connection），参数为 $R$ ：

醒眠算法

醒眠算法的算法流程为：

Wake Phase
① Bottom-up activate neuron（获得各层样本）
② Learning Generative Connection（求解 $W$ ）

Sleep Phase
① Top-down activate neuron（获得各层样本）
② Learning Recognization Connection（求解 $R$ ）

这里的Recognization Connection同样使用sigmoid函数作为激活函数，因此每次采样都是从0-1分布中进行采样。另外，Wake Phase时使用训练数据中来初始化观测变量，而Sleep Phase时无论隐变量还是观测变量都是采样得到的，没有使用训练数据。

目标函数

Generative Connection可以看做对 $P_{\theta }(h,v)$ 进行建模，模型参数为 $\theta$ （也就是 $W$ ），而Recognization Connection可以看做对后验 $Q_{\phi }(h|v)$ 进行建模，模型参数为 $\phi$ （也就是 $R$ ），这里的 $Q_{\phi }(h|v)$ 相当于一个对后验的近似。

对于 $log P(v)$ ，在前面的章节（EM算法和变分推断）中我们经常使用这个式子：

$logP(v)=ELBO+KL(Q||P)\\ 其中ELBO=E_{Q(h|v)}\left [log\frac{P(v,h)}{Q(h|v)}\right ]\\ =E_{Q(h|v)}\left [logP(v,h)\right ]+H[Q]$

在Wake Phase，我们按照以下式子求解，此时参数 $\phi$ 是固定的：

$\hat{\theta }=\underset{\theta }{argmax}\;E_{Q_{\phi }(h|v)}\left [logP_{\theta }(h,v)\right ]\\ =\underset{\theta }{argmax}\;ELBO\\ =\underset{\theta }{argmin}\;KL(Q_{\phi }(h|v)||P_{\theta }(h|v))$

在Sleep Phase，我们按照以下式子求解，此时参数 $\theta$ 是固定的：

$\hat{\phi }=\underset{\phi }{argmax}\; E_{P_{\theta }(h,v)}\left [logQ_{\phi }(h|v)\right ]\\ =\underset{\phi }{argmax}\int P_{\theta }(h,v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int \underset{与\phi 无关}{\underbrace{P_{\theta }(v)}}P_{\theta }(h|v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\left (\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}P_{\theta }(h|v)\right )\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}\mathrm{d}h+\underset{与\phi 无关}{\underbrace{\int P_{\theta }(h|v)logP_{\theta }(h|v)\mathrm{d}h}}\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}\mathrm{d}h\\ =\underset{\phi }{argmin}\; KL(P_{\theta }(h|v)||Q_{\phi }(h|v))$

也就是说在醒眠两个阶段的目标函数是不一样的，两个阶段最小化的是不一样的KL散度。在Sleep Phase无论隐变量还是观测变量都是采样得到的，没有使用训练数据，而且它的目标函数也与Wake Phase不一样，因此叫做Sleep Phase。事实上，作为一种启发式算法，醒眠算法并非一种精确的算法，是不能保证收敛的，它追求的并非准确而非效率。

类比EM算法，Wake Phase相当于M步（M步求得近似后验分布以后估计参数），而Sleep Phase相当于E步（E步求解后验分布）。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353

Sigmoid信念网络|机器学习推导系列（二十八）

一、概述

二、log似然的梯度与后验的关系

三、醒眠算法

推荐阅读更多精彩内容