系列12 变分推断4-SGVI

在上一小节中,我们分析了Mean Field Theory Variational Inference,通过平均假设来得到变分推断的理论,是一种classical VI,我们可以将其看成Coordinate Ascend。而另一种方法是Stochastic Gradient Variational Inference (SGVI)。 对于隐变量参数$z$和数据集$x$。$z \longrightarrow x$是Generative Model,也就是$p(x|z)$和$p(x,z)$,这个过程也被我们称为Decoder。$x \longrightarrow z$是Inference Model,这个过程被我们称为Encoder,表达关系也就是$p(z|x)$。 # SGVI参数规范 我们这节的主题就是Stochastic Gradient Variational Inference (SGVI),参数的更新方法为: $$ \begin{equation} \theta^{(t+1)} = \theta^{(t)} + \lambda^{(t)}\nabla \mathcal{L}(q) \end{equation} $$ 其中,$q(z|x)$被我们简化表示为$q(z)$,我们令$q(z)$是一个固定形式的概率分布,$\phi$为这个分布的参数,那么我们将把这个概率写成$q_{\phi}(z)$。 那么,我们需要对原等式中的表达形式进行更新, $$ \begin{equation} ELBO = \mathbf{E}_{q_{\phi}(z)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z) \right] = \mathcal{L}(\phi) \end{equation} $$ 而, $$ \begin{equation} \log p_{\theta}(x^{(i)}) = ELBO + KL(q||p) \geq \mathcal{L}(\phi) \end{equation} $$ 而求解目标也转换成了: $$ \begin{equation} \hat{p} = argmax_{\phi} \mathcal{L}(\phi) \end{equation} $$ # SGVI的梯度推导 $$ \begin{equation} \begin{split} \nabla_{\phi} \mathcal{L}(\phi) = & \nabla_{\phi} \mathbf{E}_{q_{\phi}}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \nabla_{\phi} \int q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz + \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ \end{split} \end{equation} $$ 我们把这个等式拆成两个部分,其中: $\int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz$为第一个部分; $ \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz$为第二个部分。 ## 关于第二部分的求解 第二部分比较好求,所以我们才首先求第二部分的,哈哈哈!因为$\log p_{\theta}(x^{(i)},z)$与$\phi$无关。 $$ \begin{equation} \begin{split} 2 = & \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & -\int q_{\phi}\nabla_{\phi}\log q_{\phi} dz \\ = & -\int q_{\phi} \frac{1}{q_{\phi}}\nabla_{\phi} q_{\phi} dz \\ = & -\int \nabla_{\phi} q_{\phi} dz \\ = & - \nabla_{\phi} \int q_{\phi} dz \\ = & - \nabla_{\phi} 1 \\ = & 0 \end{split} \end{equation} $$ ## 关于第一部分的求解 在这里我们用到了一个小trick,这个trick在公式(6)的推导中,我们使用过的。那就是$\nabla_{\phi} q_{\phi} = q_{\phi}\nabla_{\phi}\log q_{\phi} $。所以,我们代入到第一项中可以得到: $$ \begin{equation} \begin{split} 1 = & \int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \int q_{\phi}\nabla_{\phi}\log q_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \mathbf{E}_{q_{\phi}} \left[ \nabla_{\phi}\log q_{\phi} \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \end{split} \end{equation} $$ 那么,我们可以得到: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) = \mathbf{E}_{q_{\phi}} \left[ \nabla_{\phi}\log q_{\phi} \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \end{equation} $$ 那么如何求这个期望呢?我们采用的是蒙特卡罗采样法,假设$z^l \sim q_{\phi} (z)\ l = 1, 2, \cdots, L$,那么有: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{l=1}^L \nabla_{\phi}\log q_{\phi}(z^{(l)})\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z^{(l)})\right] \end{equation} $$ 由于第二部分的结果为0,所以第一部分的解就是最终的解。但是,这样的求法有什么样的问题呢?因为我们在采样的过程中,很有可能采到$q_{\phi}(z) \longrightarrow 0$的点,对于log函数来说,$\lim_{x\longrightarrow 0}log x = \infty$,那么梯度的变化会非常的剧烈,非常的不稳定。对于这样的High Variance的问题,根本没有办法求解。实际上,我们可以通过计算得到这个方差的解析解,它确实是一个很大的值。事实上,这里的梯度的方差这么的大,而$\hat{\phi} \longrightarrow q(z)$也有误差,误差叠加,直接爆炸,根本没有办法用。也就是不会work,那么我们如何解决这个问题? # Variance Reduction 这里采用了一种比较常见的方差缩减方法,称为Reparameterization Trick,也就是对$q_{\phi}$做一些简化。 我们怎么可以较好的解决这个问题?如果我们可以得到一个确定的解$p(\epsilon)$,就会变得比较简单。因为$z$来自于$q_{\phi}(z|x)$,我们就想办法将z中的随机变量给解放出来。也就是使用一个转换$z = g_{\phi}(\epsilon, x^{(i)})$,其中$\epsilon \sim p(\epsilon)$。那么这样做,有什么好处呢?原来的 $\nabla_{\phi} \mathbf{E}_{q_{\phi}}[\cdot]$ 将转换为 $\mathbf{E}_{p(\epsilon)}[\nabla_{\phi}(\cdot)]$ ,那么不在是连续的关于 $\phi$ 的采样,这样可以有效的降低方差。并且,$z$ 是一个关于 $\epsilon$ 的函数,我们将随机性转移到了 $\epsilon$ ,那么问题就可以简化为: $$ \begin{equation} z \sim q_{\phi}(z|x^{(i)}) \longrightarrow \epsilon \sim p(\epsilon) \end{equation} $$ 而且,这里还需要引入一个等式,那就是: $$ \begin{equation} |q_{\phi}(z|x^{(i)})dz| = |p(\epsilon)d\epsilon| \end{equation} $$ 为什么呢?我们直观性的理解一下,$\int q_{\phi}(z|x^{(i)})dz = \int p(\epsilon)d\epsilon = 1$,并且$q_{\phi}(z|x^{(i)})$和$p(\epsilon)$之间存在一个变换关系。 那么,我们将改写$\nabla_{\phi} \mathcal{L}(\phi)$: $$ \begin{equation} \begin{split} \nabla_{\phi} \mathcal{L}(\phi) = & \nabla_{\phi} \mathbf{E}_{q_{\phi}}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]q_{\phi} dz \\ = & \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]p(\epsilon) d\epsilon \\ = & \nabla_{\phi} \mathbf{E}_{p(\epsilon)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \mathbf{E}_{p(\epsilon)} \nabla_{\phi} \left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}) \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{split} \end{equation} $$ 那么我们的问题就这样愉快的解决了,$p(\epsilon)$的采样与$\phi$无关,然后对先求关于$z$的梯度,然后再求关于$\phi$的梯度,那么这三者之间就互相隔离开了。最后,我们再对结果进行采样,$\epsilon^{(l)} \sim p(\epsilon), \quad l = 1, 2, \cdots, L$: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{i=1}^L \nabla_{z} \left[ (\log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{equation} $$ 其中$z \longleftarrow g_{\phi}(\epsilon^{(i)},x^{(i)})$。而SGVI为: $$ \begin{equation} \phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla_{\phi} \mathcal{L}(\phi) \end{equation} $$ # 小结 那么SGVI,可以简要的表述为:我们定义分布为$q_{\phi}(Z|X)$,$\phi$为参数,参数的更新方法为: $$ \begin{equation} \phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla_{\phi} \mathcal{L}(\phi) \end{equation} $$ $\nabla_{\phi} \mathcal{L}(\phi)$为: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{i=1}^L \nabla_{z} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{equation} $$ 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容