1. EM介绍
EM(Expectation Maximization Algorithm, EM)是Dempster等人于1977年提出的一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计(MLE),或极大后验概率估计(MAP)。
2. EM算法描述
-
输入
:观测变量数据
:隐变量数据
:联合分布
:条件分布,后验概率
-
输出
:模型参数
-
迭代过程
初始化参数
步:记是第 次迭代参数的估计值,则第 次迭代的步:求对数联合概率在后验上的期望:
步:求步的参数估计值:
重复步和步,直到收敛:
3. EM公式导出之ELBO+KL Divergence
MLE的做法是最大化似然函数:
上面的式子中有隐变量并且是形式,不好直接计算。
EM的做法是求出似然函数的下界,不断迭代,使得下界不断逼近.
等式两边同时对求期望:
所以:
上式中,是一个下界,所以,当散度为0时,等式成立。
也就是说,不断最大化等价于最大化似然函数。在EM迭代过程中的第 步,假设,然后最大化
4. EM公式导出之ELBO+Jensen Inequality
4.1 Jensen Inequality
4.2 EM公式推导
对log-likelihood做如下变换:
只有当时,等号才成立。
5. EM收敛性证明
如果能证明
则说明EM是收敛的,因为肯定有界,单调有界函数必收敛!
由于使得达到极大,所以:
因此,得到: