pLSA建模与求参
-
pLSA
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下
pLSA是一种词袋方法:
-
几个定义:
-
pLSA建模目标:根据文档反推其主题分布
图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档。
已知:
问题:
-
pLSA求参数:EM算法
基本思想是:
关键:找到𝐿(𝜃)的一个下界,然后maxmize这个下界,逼近求解的似然函数𝐿(𝜃)。
-
pLSA求参数:两未知参数矩阵化
-
pLSA求参数:两未知参数
-
pLSA求参数:E-step
假定参数已知,计算此时引变量的后验概率。
-
pLSA求参数:M-step
带入隐变量的后验概率,最大化样本分布的对数似然函数,求解相应的参数。