目标L:计算后验分布p(z|x)
方法:构建q(z)去近似p(z|x)
KL散度是用来衡量两个分布之间的距离,当距离=0时,表示两个分布完全一致。
ELBO: Evidence Lower BOund
目标极大化ELBO
假设模型有隐含变量θ,β,z,模型的参数是α,η。为了求出模型参数和对应的隐藏变量分布,EM算法需要在E步先求出隐藏变量θ,β,z的基于条件概率分布的期望,接着在M步极大化这个期望,得到更新的后验模型参数α,η。
问题是在EM算法的E步,由于θ,β,z的耦合,我们难以求出隐藏变量θ,β,z的条件概率分布,也难以求出对应的期望,需要“变分推断“来帮忙,这里所谓的变分推断,也就是在隐藏变量存在耦合的情况下,我们通过变分假设,即假设所有的隐藏变量都是通过各自的独立分布形成的,这样就去掉了隐藏变量之间的耦合关系。我们用各个独立分布形成的变分分布来模拟近似隐藏变量的条件分布,这样就可以顺利的使用EM算法了。
故ELBO最大化,才能使得KL最小。
指数分布族:
A(x)为归一化因子,主要是保证概率分布累积求和后为1
故
Dirichlet分布也是指数分布族
证明:
其中,
得证。
Dirichlet分布
Ψ是Digamma函数,即log Γ 函数的导数。
未完!