目录
0. 前言
0. 基本概念
1. 最大似然估计(Maximum-Likelihood Estimation,ML)
2. 贝叶斯估计(Bayesian Estimation)
3. 无监督参数估计
4. 最大期望算法(Expectation Maximization,EM)
5. 高斯混合模型EM参数估计实现
前言
本笔记是笔者课程学习中所做笔记(绝对原创),转载请附本文链接及作者信息。
有问题欢迎在交流区探讨学习,QQ:761322725
码字不易,好心人随手点个赞👍
个人认为课程所用PPT是对模式识别原理讲解最为透彻且容易理解的ppt
本文基础是贝叶斯决策//www.greatytc.com/p/6f5273c09359
基础数理统计知识:概率分布、概率密度函数、贝叶斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468
-
背景:
实际分类中概率结构的完整信息很难获知,通常只知道总体分布的模糊信息和训练样本- 需要利用训练样本
- 1.估计先验概率 ,是训练集中N个样本中类的样本数量
- 2.估计样本中的类条件概率密度
0. 基本概念
相关概念定义如下:1.最大似然估计(Maximum-Likelihood Estimation,ML)
1.1基本假设
- 类条件概率密度函数形式已知 , 参数未知但确定 , 记作 𝜽𝒋, 因此可以将改写为 或 c为类别数量。
同时有以下重要性质: - 每类样本集 中的样本都是从密度为 的总体中独立抽出,即 中的。
- 各类样本只包含本类的分布信息,即不同类别的 参数 是各自独立的
- 在独立性假设下,可将原问题看作 c 个独立的问题。即,每一类
独立地按照概率密度 抽取样本集 𝓓,用 𝓓估计出参数 𝜽 (分而治之)
将分类问题分解为各类的子问题后,我们来关注具体的参数的估计过程
1.2基本原理
𝒟={𝑿1,…,𝑿𝑛},设各样本按条件概率密度 从总体中独立抽取,有
我们将称为参数对于样本集D的似然函数
所以最终的目的就是对似然函数求最大值,最大似然估计的方法也因此而来
1.3微分求解
当似然函数为可微函数,可以通过求导计算出最大值,得出估计值
1.4示例
2. 贝叶斯估计
2.1基本思想
- 贝叶斯估计方法与最大似然估计方法有本质不同,它把参数向量 θ 本身看成一个随机变量 ,根据观测数据对参数的分布进行估计,即后验概率密度 𝑝(𝜃|𝒟)。
- 贝叶斯学习,则是把贝叶斯估计的原理用于直接从数据对概率密度函数进行迭代估计。
- 原问题: 估计概率密度。假设 函数形式已知, 参数𝜃未知且不固定;
-
目标: 根据给定的样本集 𝓓={𝑋1,…,𝑋𝑛},找到未知参数 𝜃的一个估计量,使得由此带来的风险最小。
2.2 贝叶斯估计
- 基本前提:函数形式已知, 参数𝜃未知且不固定;𝜽取值的参数空间 𝚯是一个连续空间
- 用类似于最小风险判决的方法来估计未知随机参数
标记真实参数为 𝜽, 得到的估计量为时承担的损失。
- 最常用的损失函数为平方误差损失,
2.3 贝叶斯学习
通过上一节对贝叶斯估计的过程的分析,可以知道贝叶斯估计为了得到最终的概率分布情况(估计概率密度),采用贝叶斯公式计算参数的后验概率,进行了问题的转换。
而贝叶斯学习,则不经过中间的参数估计步骤,
具体求解过程
随着n 值的增加, 𝜽的相应后验概率密度一般会变得越来越尖锐。
若上述概率密度函数序列在𝒏→∞时 , 收敛于以真值参数 𝜽为中心的狄拉克 𝜹函数,则称相应的学习过程为贝叶斯学习过程
2.4 贝叶斯学习示例
2.5 贝叶斯估计总结
1 计算参数后验密度函数
2 计算类条件密度
两类估计方法的差别
贝叶斯估计方法有很强的理论和算法基础。但在实际应用中,最大似然估计更简便,且设计出的分类器的性能几乎与贝叶斯方法得到的结果相差无几。
2.6 参数估计方法总结
- 最大似然估计:将参数视为未知固定值,
- 贝叶斯估计: 将参数视为随机变量,
3. 无监督参数估计
3.1 问题
- 样本类别未知(无监督)情况下的类条件概密参数估计问题,被称为无监督参数估计
- 把参数估计方法推广到概率模型中含有隐变量如 样本的未知类别 或允许样本存在 缺失特征 的情况
- 问题描述:给定混合样本集 𝒟=𝑿1,𝑿2,⋯,𝑿𝒏,其类别数已知(c),。每个类别的类条件概率密度 函数形式已知 ,未知。
-
目标:1) 估计各类的分布参数 和 类先验分布 。令,
混合概率密度函数为
3.2 求解方法
-
混合概率密度函数的最大似然估计求法:
- 其中情况一:混合参数已知,方法同第1节中最大似然估计所述,差别在于这个地方是所有类在一起计算,没有分而治之
- 情况二:需要用条件极值法进行求解
(2)(3) 式联立求解得到参数的最大似然估计。 但得到闭式解困难,通常通过迭代算法,如 EM 算法,进行求解。下面将学习EM算法
4. 最大期望算法(Expectation Maximization)
4.1 基本概念
- 解决在概率模型中含有无法观测的隐含变量情况下的参数估计问题。
- 场景:数据不完整,有缺失特征; 存在隐变量,如样本的类别未知。
-
核心思想:根据已有的、不完整数据,利用对数似然函数期望 迭
代地估计 分布函数的未知参数 - 基本知识凸函数(Convex Functions)
-
詹森/琴生不等式(Jensen's inequality)
-
完全数据与不完全数据
4.2 EM原理
-
目标是极大化观测数据 Y 关于参数 𝜽的对数似然函数
EM算法是通过不断地使下界极大化 ,去逼近求解“对数似然函数极大化”
注意点: - 参数初值:EM算法对初值敏感
- 迭代终止条件:当Q函数值变化小于一定值或者参数估计值变化小于一定值
4.3 EM在无监督参数估计中的应用
第3节中提及的无监督参数估计(即混合模型的参数估计),在未知的情况,如何求解,可以用EM算法完成:
完整的算法流程如下所示:
4.5 EM对高斯混合模型的估计
-
高斯混合模型的概念