之前在概率建模中的参数估计-最大似然估计MLE中对最大似然概率做了比较详细了解释,那么理解最大似然之后,最大后验(Maximum A Posteriori estimation)也就好理解了。
在公式Posterior= Likelihood * Prior / Evidence中,我们如果没有任何先验知识,不确定theta的先验分布,则通过假设Prior为常数(均匀分布 uniform distribution),来获得在样本D上概率最大theta。P(theta|D) ~ P(D| theta),计算argmax Likelihood即可。
而当我们对theta拥有一定的先验知识时,则将常数假设更换为先验假设,优化时计算argmax Likelihood * Prior 即可。
这里的Prior通常是一个已知分布的函数,比如用标准正太分布描述参数,则Prior ie P(theta) = NORM(theta),得到一个theta的函数,将其带入公式求argmax即可。
PS:其实MLE就等价于,假设先验为均匀分布(uniform distribution)的MAP
MAP与MLE根源的不同:
MLE本质是对先验概率没有任何假设,完全让数据(D)说话。所以MLE方法中,主导思想是频率学派对概率的理解。而MAP加入了先验,并且随着数据(D)的变化,参数会跟随其变化,更起主导的是贝叶斯学派的思想。