LDA模型其实是对PLAS模型的一种贝叶斯学派改进(贝叶斯学派认为样本是不变的,而参数是服从某一种分布的)。所以有了一种丢骰子的模型,第一种骰子是doc_topic,第二种是topic_word,我们有两个口袋,口袋中分别有无限多种分布的骰子。我们先从第一个口袋中选一个骰子,再该掷骰子,产生了一个topic,再从另一个口袋中抽一个满足该topic的骰子,再掷骰子会得到一个word。
这就产生了两个概率问题,第一是从口袋中抽骰子并掷骰子得到topic,第二是知道topic再抽再掷骰子得到word。
我们分析一个概率问题,第二个类似。从口袋抽的过程是一个Dirichlet概率问题(先验概率),根据topic的种类分布(一个多项式分布),我们可以得到从口袋抽并掷骰子得到一个topic的分布(后验概率)。满足贝叶斯理论:先验分布+似然=后验分布
我们可以根据该理论推导出,参数估计(抽的那个骰子的分布参数),和后验概率。
因为我们有独立的M个文本和独立的K个主题,所以我们有M+K个Dirichlet_Mult共轭,根据以上公式,也就有其后验概率。
(Z代表topic编号)
由于M个文本和K个主题独立生成,所以有
(w是整个文本)
故我们能得到一个主题和文本的联合分布
得到联合分布后,再通过算法求解:拉格朗日求解法,进行求解